論文の概要: DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue
- arxiv url: http://arxiv.org/abs/2504.14482v1
- Date: Sun, 20 Apr 2025 04:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:17:02.033172
- Title: DialogueAgents: A Hybrid Agent-Based Speech Synthesis Framework for Multi-Party Dialogue
- Title(参考訳): DialogueAgents: 多人数対話のためのハイブリッドエージェントベース音声合成フレームワーク
- Authors: Xiang Li, Duyi Pan, Hongru Xiao, Jiale Han, Jing Tang, Jiabao Ma, Wei Wang, Bo Cheng,
- Abstract要約: 本稿では,新しいハイブリッドエージェントベース音声合成フレームワークであるDialogueAgentsを提案する。
バイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkにコントリビュートする。
- 参考スコア(独自算出の注目度): 17.397151329196955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech synthesis is crucial for human-computer interaction, enabling natural and intuitive communication. However, existing datasets involve high construction costs due to manual annotation and suffer from limited character diversity, contextual scenarios, and emotional expressiveness. To address these issues, we propose DialogueAgents, a novel hybrid agent-based speech synthesis framework, which integrates three specialized agents -- a script writer, a speech synthesizer, and a dialogue critic -- to collaboratively generate dialogues. Grounded in a diverse character pool, the framework iteratively refines dialogue scripts and synthesizes speech based on speech review, boosting emotional expressiveness and paralinguistic features of the synthesized dialogues. Using DialogueAgent, we contribute MultiTalk, a bilingual, multi-party, multi-turn speech dialogue dataset covering diverse topics. Extensive experiments demonstrate the effectiveness of our framework and the high quality of the MultiTalk dataset. We release the dataset and code https://github.com/uirlx/DialogueAgents to facilitate future research on advanced speech synthesis models and customized data generation.
- Abstract(参考訳): 音声合成は人間とコンピュータの相互作用に不可欠であり、自然と直感的なコミュニケーションを可能にする。
しかし、既存のデータセットは手動のアノテーションによる建設コストが高く、文字の多様性、文脈シナリオ、感情表現性に悩まされている。
これらの課題に対処するために,台詞作成者,音声合成者,対話評論家の3つの専門エージェントを統合し,対話を協調的に生成する,ハイブリッドエージェントベースの音声合成フレームワークであるDialogueAgentsを提案する。
多様なキャラクタプールに根ざしたこのフレームワークは、対話スクリプトを反復的に洗練し、音声レビューに基づいて音声を合成し、合成された対話の感情表現性とパラ言語的特徴を高める。
多様なトピックをカバーするバイリンガル・マルチパーティ・マルチターン音声対話データセットであるMultiTalkをDialogueAgentを用いて提案する。
大規模な実験は、我々のフレームワークの有効性と、MultiTalkデータセットの高品質を実証する。
我々はデータセットとコード https://github.com/uirlx/DialogueAgents をリリースした。
関連論文リスト
- SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development [42.598003881584816]
自然言語対話を効率的に生成するための生産対応フレームワークであるtextscSpeechDialogueFactory を紹介する。
提案手法では,メタデータ生成,対話スクリプティング,パラ言語に富んだ発話シミュレーション,音声クローニングによる自然な音声合成を含む包括的パイプラインを用いる。
私たちはオープンソースツールキットとして、サンプルデータセットを英語と中国語で公開しています。
論文 参考訳(メタデータ) (2025-03-31T08:52:21Z) - OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios [45.78414948567598]
本稿では,多種多様なシナリオの対話モデルを強化するために合成データを活用することを提案する。
ShareChatXは、多様なシナリオにまたがる音声対話のための、最初の包括的な大規模データセットである。
また、合成データを用いた対話システムの訓練における重要な側面についても検討する。
論文 参考訳(メタデータ) (2025-01-02T17:58:23Z) - DiaSynth: Synthetic Dialogue Generation Framework for Low Resource Dialogue Applications [18.378069426713]
既存の研究は、対話システムの訓練に十分なスケールが欠けている一般またはニッチなデータセットによって制約されている。
本稿では,高品質で文脈的にリッチな対話を生成可能な合成対話生成フレームワークであるDia Synthを紹介する。
我々は,異なるLLMを用いて合成データを生成し,DialogSum とSAMSum を例に挙げて実験を行った。
論文 参考訳(メタデータ) (2024-09-25T07:03:31Z) - A Framework for Synthetic Audio Conversations Generation using Large Language Models [0.0]
Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。
このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
論文 参考訳(メタデータ) (2024-09-02T05:09:46Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Towards human-like spoken dialogue generation between AI agents from
written dialogue [8.4989907582951]
本研究では,CHATS - CHATS-CHATty Agents Text-to-Speechを提案する。
本システムでは,話者側とリスナー側の両方に対して,話者側からの書き起こしのみを用いて同時に音声を生成することができる。
論文 参考訳(メタデータ) (2023-10-02T11:03:20Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - A Benchmark for Understanding and Generating Dialogue between Characters
in Stories [75.29466820496913]
本研究は,機械が物語の対話を理解・生成できるかどうかを探求する最初の研究である。
マスク付き対話生成と対話話者認識という2つの新しいタスクを提案する。
DialStoryの自動評価と手動評価で既存のモデルをテストすることで,提案課題の難しさを示す。
論文 参考訳(メタデータ) (2022-09-18T10:19:04Z) - HybriDialogue: An Information-Seeking Dialogue Dataset Grounded on
Tabular and Textual Data [87.67278915655712]
我々は、ウィキペディアのテキストとテーブルの両方を基盤とした、クラウドソーシングされた自然な会話からなる新しい対話データセットHybriDialogueを提示する。
これらの会話は、複雑なマルチホップ質問をシンプルで現実的なマルチターン対話に分解することで生成される。
論文 参考訳(メタデータ) (2022-04-28T00:52:16Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。