論文の概要: Chain-of-Thought Training for Open E2E Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2506.00722v1
- Date: Sat, 31 May 2025 21:43:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.506823
- Title: Chain-of-Thought Training for Open E2E Spoken Dialogue Systems
- Title(参考訳): オープンE2E音声対話システムの連鎖学習
- Authors: Siddhant Arora, Jinchuan Tian, Hayato Futami, Jee-weon Jung, Jiatong Shi, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe,
- Abstract要約: エンド・ツー・エンド(E2E)音声対話システムは完全な識別性を保ち、非音声情報をキャプチャする。
我々は,多モーダル言語モデルと密接に一致した会話データによる学習を確実にするためのチェーン・オブ・シント(CoT)の定式化を提案する。
提案手法はベースラインよりも1.5ROUGE-1の改善を実現し,一般公開された人間と人間の会話データセット上で音声対話システムの訓練に成功している。
- 参考スコア(独自算出の注目度): 57.77235760292348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unlike traditional cascaded pipelines, end-to-end (E2E) spoken dialogue systems preserve full differentiability and capture non-phonemic information, making them well-suited for modeling spoken interactions. However, existing E2E approaches often require large-scale training data and generates responses lacking semantic coherence. We propose a simple yet effective strategy leveraging a chain-of-thought (CoT) formulation, ensuring that training on conversational data remains closely aligned with the multimodal language model (LM)'s pre-training on speech recognition~(ASR), text-to-speech synthesis (TTS), and text LM tasks. Our method achieves over 1.5 ROUGE-1 improvement over the baseline, successfully training spoken dialogue systems on publicly available human-human conversation datasets, while being compute-efficient enough to train on just 300 hours of public human-human conversation data, such as the Switchboard. We will publicly release our models and training code.
- Abstract(参考訳): 従来のカスケードパイプラインとは異なり、エンド・ツー・エンド(E2E)音声対話システムは完全な識別性を保ち、非音声情報をキャプチャし、音声対話をモデル化するのに適している。
しかし、既存のE2Eアプローチでは、大規模なトレーニングデータを必要とし、セマンティックコヒーレンスを欠いた応答を生成することが多い。
本稿では,音声音声認識(ASR),テキスト音声合成(TTS),テキスト音声合成(LMS)タスクにおける多モーダル言語モデル(LM)の事前学習と,会話データのトレーニングが密接に一致していることを保証するため,チェーン・オブ・シンクト(CoT)の定式化を活用したシンプルかつ効果的な戦略を提案する。
提案手法はベースラインよりも1.5ROUGE-1の改善を実現し,公用人間の会話データセット上での音声対話システムの訓練に成功し,Switchboardなどの公開人の会話データに対して,300時間以上のトレーニングを行うのに十分な計算効率を実現した。
モデルとトレーニングコードを公開します。
関連論文リスト
- Data-Centric Improvements for Enhancing Multi-Modal Understanding in Spoken Conversation Modeling [13.628984890958314]
本稿では,対話型音声モデリングにおけるマルチモーダル理解の効率化を目的とした,データ中心のカスタマイズ手法を提案する。
提案手法は,オープンウェイトモデルを用いたトレーニングデータの10%のみを用いて,Spken-SQuADベンチマークの最先端性能を実現する。
また、あいまいなユーザ要求と動的評価入力を備えたマルチターン音声対話のための最初のデータセットであるASK-QAを導入する。
論文 参考訳(メタデータ) (2024-12-20T15:43:09Z) - Scaling Speech-Text Pre-training with Synthetic Interleaved Data [31.77653849518526]
音声言語モデル(SpeechLM)は音声入力を受け入れ、音声出力を生成し、より自然な人間とコンピュータの相互作用を可能にする。
従来のSpeechLMの開発手法は、教師なし音声データとパラレル音声テキストデータの可用性の制限によって制約されている。
本稿では,テキストコーパスから得られた大規模合成インターリーブデータを活用することによって,音声テキスト事前学習のスケールアップを行う手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T17:19:09Z) - OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [53.7173034249361]
エンド・ツー・エンドのGPTベースモデルであるOmniFlattenは、低レイテンシで自然な会話に固有の複雑な振る舞いを効果的にモデル化することができる。
提案手法は, 簡便なモデリング手法と, より効率的かつ自然な対話システムを構築するための研究の方向性を提供する。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。
ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文 参考訳(メタデータ) (2023-05-24T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。