論文の概要: Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models
- arxiv url: http://arxiv.org/abs/2604.14920v1
- Date: Thu, 16 Apr 2026 12:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.880765
- Title: Dual-Axis Generative Reward Model Toward Semantic and Turn-taking Robustness in Interactive Spoken Dialogue Models
- Title(参考訳): 対話型音声対話モデルにおけるセマンティック・ターンテイクロバストネスに向けた2軸生成リワードモデル
- Authors: Yifu Chen, Shengpeng Ji, Zhengqing Liu, Qian Chen, Wen Wang, Ziqing Wang, Yangzhuo Li, Tianle Liang, Zhou Zhao,
- Abstract要約: 良く設計された報酬信号は強化学習(RL)に不可欠である
本モデルは,多種多様なデータセットを対象としたインタラクション品質評価の最先端性能を実現する。
- 参考スコア(独自算出の注目度): 45.119381322968735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving seamless, human-like interaction remains a key challenge for full-duplex spoken dialogue models (SDMs). Reinforcement learning (RL) has substantially enhanced text- and vision-language models, while well-designed reward signals are crucial for the performance of RL. We consider RL a promising strategy to address the key challenge for SDMs. However, a fundamental barrier persists: prevailing automated metrics for assessing interaction quality rely on superficial proxies, such as behavioral statistics or timing-prediction accuracy, failing to provide reliable reward signals for RL. On the other hand, human evaluations, despite their richness, remain costly, inconsistent, and difficult to scale. We tackle this critical barrier by proposing a Dual-Axis Generative Reward Model, which is trained to understand complex interaction dynamics using a detailed taxonomy and an annotated dataset, produces a single score and, crucially, provides separate evaluations for semantic quality and interaction timing. Such dual outputs furnish precise diagnostic feedback for SDMs and deliver a dependable, instructive reward signal suitable for online reinforcement learning. Our model achieves state-of-the-art performance on interaction-quality assessment across a wide spectrum of datasets, spanning synthetic dialogues and complex real-world interactions.
- Abstract(参考訳): シームレスな人間のような対話を実現することは、完全な二重音声対話モデル(SDM)にとって重要な課題である。
強化学習 (Reinforcement Learning, RL) はテキスト言語と視覚言語モデルを大幅に強化し, 十分に設計された報酬信号はRLの性能向上に不可欠である。
我々は、RLをSDMの鍵となる課題に取り組むための有望な戦略だと考えている。
しかし、基本的な障壁は続く: 相互作用品質を評価するための自動化メトリクスは、行動統計やタイミング予測精度のような表面的プロキシに依存し、RLに対する信頼性の高い報酬信号を提供できない。
一方、人間の評価は、その豊かさにもかかわらず、費用がかかり、一貫性がなく、スケールが難しい。
我々は、詳細な分類法と注釈付きデータセットを用いて複雑な相互作用のダイナミクスを理解するために訓練されたDual-Axis Generative Reward Modelを提案し、単一のスコアを生成し、重要な点として、セマンティックな品質と相互作用のタイミングを個別に評価する。
このような二重出力は、SDMの正確な診断フィードバックを与え、オンライン強化学習に適した信頼性の高いインストラクティブ報酬信号を提供する。
本モデルは,多種多様なデータセットにまたがるインタラクション品質評価において,合成対話と複雑な実世界のインタラクションにまたがって,最先端のパフォーマンスを実現する。
関連論文リスト
- Interactive ASR: Towards Human-Like Interaction and Semantic Coherence Evaluation for Agentic Speech Recognition [52.63676763985825]
トークンレベルの精度を超えた認識品質を評価するための意味認識評価指標を提案する。
我々は,人間のようなマルチターンインタラクションをシミュレートするエージェント・フレームワークを設計し,認識出力の反復的改善を可能にする。
対話型およびエージェント型ASRにおける今後の研究を促進するためのコードをリリースする。
論文 参考訳(メタデータ) (2026-04-10T09:02:42Z) - Evaluating Zero-Shot and One-Shot Adaptation of Small Language Models in Leader-Follower Interaction [1.3511057160494195]
リーダー-フォロワー相互作用は人間-ロボット相互作用(HRI)において重要なパラダイムである
小言語モデル(SLM)は潜在的な代替手段を提供するが、HRIにおける役割分類の有効性は体系的に評価されていない。
論文 参考訳(メタデータ) (2026-02-26T18:20:26Z) - Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文 参考訳(メタデータ) (2026-01-27T00:55:14Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Reinforced Interactive Continual Learning via Real-time Noisy Human Feedback [59.768119380109084]
本稿では,AIモデルがリアルタイムフィードバックから新たなスキルを動的に学習する対話型連続学習パラダイムを提案する。
大規模言語モデル(LLM)を活用した強化型対話型連続学習フレームワークRiCLを提案する。
我々のRiCLアプローチは、最先端のオンライン連続学習とノイズラベル学習の既存の組み合わせを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-15T03:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。