論文の概要: Aligning Spoken Dialogue Models from User Interactions
- arxiv url: http://arxiv.org/abs/2506.21463v1
- Date: Thu, 26 Jun 2025 16:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.201399
- Title: Aligning Spoken Dialogue Models from User Interactions
- Title(参考訳): ユーザインタラクションによる音声対話モデルの調整
- Authors: Anne Wu, Laurent Mazaré, Neil Zeghidour, Alexandre Défossez,
- Abstract要約: 本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 55.192134724622235
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a novel preference alignment framework for improving spoken dialogue models on real-time conversations from user interactions. Current preference learning methods primarily focus on text-based language models, and are not directly suited to the complexities of real-time speech interactions, with richer dynamics (e.g. interruption, interjection) and no explicit segmentation between speaker turns.We create a large-scale dataset of more than 150,000 preference pairs from raw multi-turn speech conversations, annotated with AI feedback, to cover preferences over both linguistic content and temporal context variations. We leverage offline alignment methods to finetune a full-duplex autoregressive speech-to-speech model. Extensive experiments demonstrate that feedback on generic conversations can be consistently effective in improving spoken dialogue models to produce more factual, safer and more contextually aligned interactions. We deploy the finetuned model and conduct holistic human evaluations to assess the impact beyond single-turn conversations. Our findings shed light on the importance of a well-calibrated balance among various dynamics, crucial for natural real-time speech dialogue systems.
- Abstract(参考訳): 本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
現在の嗜好学習法は主にテキストベースの言語モデルに重点を置いており、よりリッチな動的(例えば、割り込み、インタージェクション)と話者のターン間の明示的なセグメンテーションのないリアルタイム音声対話の複雑さに直接適応せず、我々は、AIフィードバックを付加した、生のマルチターン音声会話から15万以上の選好ペアからなる大規模データセットを作成し、言語内容と時間的文脈の変化の両方に対する嗜好をカバーしている。
我々は、オフラインアライメント手法を利用して、全二重の自己回帰音声音声合成モデルを微調整する。
包括的な実験により、一般的な会話に対するフィードバックは、より現実的で、より安全で、より文脈的に整合した対話を生み出すために、音声対話モデルを改善するのに一貫して有効であることが示された。
我々は、微調整されたモデルをデプロイし、一ターン会話を超えた影響を評価するための全体論的人間評価を行う。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
関連論文リスト
- A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。
既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。
本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-12T04:22:18Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Advancing Multi-Party Dialogue Framework with Speaker-ware Contrastive Learning [10.678477576849579]
コントラスト学習に基づく多人数対話応答生成フレームワークを提案する。
CMRは2段階の自己教師型コントラスト学習フレームワークを採用している。
実験の結果、CMRは最先端のモデルよりも優れているだけでなく、大きな事前訓練された言語モデルにも優れていることが示された。
論文 参考訳(メタデータ) (2025-01-20T06:28:22Z) - Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning Framework for Dialogue [13.774377524019723]
マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。
エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。
我々のフレームワークは従来の微調整よりも優れており、対話の整合性を改善する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-02-10T14:52:52Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。