論文の概要: SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development
- arxiv url: http://arxiv.org/abs/2503.23848v1
- Date: Mon, 31 Mar 2025 08:52:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:36:40.718166
- Title: SpeechDialogueFactory: Generating High-Quality Speech Dialogue Data to Accelerate Your Speech-LLM Development
- Title(参考訳): 音声対話Factory: 音声-LLM開発を加速するための高品質音声対話データの生成
- Authors: Minghan Wang, Ye Bai, Yuxia Wang, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: 自然言語対話を効率的に生成するための生産対応フレームワークであるtextscSpeechDialogueFactory を紹介する。
提案手法では,メタデータ生成,対話スクリプティング,パラ言語に富んだ発話シミュレーション,音声クローニングによる自然な音声合成を含む包括的パイプラインを用いる。
私たちはオープンソースツールキットとして、サンプルデータセットを英語と中国語で公開しています。
- 参考スコア(独自算出の注目度): 42.598003881584816
- License:
- Abstract: High-quality speech dialogue datasets are crucial for Speech-LLM development, yet existing acquisition methods face significant limitations. Human recordings incur high costs and privacy concerns, while synthetic approaches often lack conversational authenticity. To address these challenges, we introduce \textsc{SpeechDialogueFactory}, a production-ready framework for generating natural speech dialogues efficiently. Our solution employs a comprehensive pipeline including metadata generation, dialogue scripting, paralinguistic-enriched utterance simulation, and natural speech synthesis with voice cloning. Additionally, the system provides an interactive UI for detailed sample inspection and a high-throughput batch synthesis mode. Evaluations show that dialogues generated by our system achieve a quality comparable to human recordings while significantly reducing production costs. We release our work as an open-source toolkit, alongside example datasets available in English and Chinese, empowering researchers and developers in Speech-LLM research and development.
- Abstract(参考訳): 高品質な音声対話データセットは、音声-LLM開発には不可欠であるが、既存の取得方法は重大な制限に直面している。
人間の録音は高いコストとプライバシーの懸念を招き、合成アプローチは会話の信頼性を欠いていることが多い。
これらの課題に対処するために,自然音声対話を効率的に生成するための生産可能なフレームワークであるtextsc{SpeechDialogueFactory}を紹介する。
提案手法では,メタデータ生成,対話スクリプティング,パラ言語に富んだ発話シミュレーション,音声クローニングによる自然な音声合成を含む包括的パイプラインを用いる。
さらに、詳細なサンプル検査のためのインタラクティブUIと、高スループットバッチ合成モードを提供する。
評価の結果,本システムによって生成された対話は,人為的な録音に匹敵する品質を達成しつつ,生産コストを大幅に削減できることがわかった。
私たちはオープンソースツールキットとして、サンプルデータセットを英語と中国語で提供し、研究者や開発者がSpeech-LLMの研究と開発に力を入れています。
関連論文リスト
- OmniChat: Enhancing Spoken Dialogue Systems with Scalable Synthetic Data for Diverse Scenarios [45.78414948567598]
本稿では,多種多様なシナリオの対話モデルを強化するために合成データを活用することを提案する。
ShareChatXは、多様なシナリオにまたがる音声対話のための、最初の包括的な大規模データセットである。
また、合成データを用いた対話システムの訓練における重要な側面についても検討する。
論文 参考訳(メタデータ) (2025-01-02T17:58:23Z) - SLIDE: Integrating Speech Language Model with LLM for Spontaneous Spoken Dialogue Generation [56.683846056788326]
本稿では,自発音声対話gEnerationのためのSLMとLLMの統合を提案する。
本研究では,テキスト対話を音素シーケンスに変換し,音素の持続時間を予測するために2tower変換器を用いた継続時間予測手法を提案する。
Fisherデータセットを用いた実験結果から,本システムは高意味的コヒーレンスを維持しつつ,自然な音声対話を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-01-01T11:11:07Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - A Framework for Synthetic Audio Conversations Generation using Large Language Models [0.0]
Conversa Synthは、複数のペルソナ設定を持つ大規模言語モデル(LLM)を使用して合成会話音声を生成するように設計されたフレームワークである。
このフレームワークはまず、さまざまなトピックにわたる多様で一貫性のあるテキストベースの対話を生成し、その後、TTS(text-to-speech)システムを使用して音声に変換する。
論文 参考訳(メタデータ) (2024-09-02T05:09:46Z) - Style-Talker: Finetuning Audio Language Model and Style-Based Text-to-Speech Model for Fast Spoken Dialogue Generation [16.724603503894166]
Style-Talkerは、高速音声ダイアログ生成のためのスタイルベースのTSモデルとともに、オーディオLLMを微調整する革新的なフレームワークである。
実験の結果,Style-Talkerは対話の自然さとコヒーレンスの両方の観点から,従来のカスケードと音声音声のベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2024-08-13T04:35:11Z) - J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling [43.87842102048749]
音声対話は人間とAIの相互作用において重要な役割を担い、対話指向音声言語モデル(SLM)を必要とする
ヒッカ品質の音声生成を確実にするためには、データはWild内のデータのように自然に必要であり、ノイズを除去して音響的にクリーンでなければならない。
本研究では,人間-AI対話のための日本語コーパス(J-CHAT)という,大規模音声対話コーパスの構築とリリースによって,このギャップに対処する。
本稿では、コーパス構築のための言語に依存しない手法を提案し、J-CHATで訓練されたSLMを用いた対話生成実験について述べる。
論文 参考訳(メタデータ) (2024-07-22T17:46:50Z) - Investigating the Effects of Large-Scale Pseudo-Stereo Data and Different Speech Foundation Model on Dialogue Generative Spoken Language Model [47.67067056593085]
単一チャネルの対話データを擬似ステレオデータに変換するパイプラインを開発する。
これにより、トレーニングデータセットを2,000時間から17,600時間に拡大しました。
この擬似ステレオデータの導入は、音声対話言語モデルの性能向上に有効であることが証明されている。
論文 参考訳(メタデータ) (2024-07-02T03:22:41Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。