論文の概要: Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback
- arxiv url: http://arxiv.org/abs/2601.19063v1
- Date: Tue, 27 Jan 2026 00:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.110297
- Title: Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback
- Title(参考訳): AIフィードバックによる強化学習による音声対話システムにおける会話品質の最適化
- Authors: Siddhant Arora, Jinchuan Tian, Jiatong Shi, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe,
- Abstract要約: 本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
- 参考スコア(独自算出の注目度): 82.70507055599093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human or AI feedback (RLHF/RLAIF) for speech-in/speech-out dialogue systems (SDS) remains underexplored, with prior work largely limited to single semantic rewards applied at the utterance level. Such setups overlook the multi-dimensional and multi-modal nature of conversational quality, which encompasses semantic coherence, audio naturalness, speaker consistency, emotion alignment, and turn-taking behavior. Moreover, they are fundamentally mismatched with duplex spoken dialogue systems that generate responses incrementally, where agents must make decisions based on partial utterances. We address these limitations with the first multi-reward RLAIF framework for SDS, combining semantic, audio-quality, and emotion-consistency rewards. To align utterance-level preferences with incremental, blockwise decoding in duplex models, we apply turn-level preference sampling and aggregate per-block log-probabilities within a single DPO objective. We present the first systematic study of preference learning for improving SDS quality in both multi-turn Chain-of-Thought and blockwise duplex models, and release a multi-reward DPO dataset to support reproducible research. Experiments show that single-reward RLAIF selectively improves its targeted metric, while joint multi-reward training yields consistent gains across semantic quality and audio naturalness. These results highlight the importance of holistic, multi-reward alignment for practical conversational SDS.
- Abstract(参考訳): 音声・音声対話システム(SDS)のための人間またはAIフィードバック(RLHF/RLAIF)からの強化学習は、まだ未熟であり、以前の研究は、発話レベルで適用される単一の意味的な報酬に限られていた。
このようなセットアップは、セマンティックコヒーレンス、音声の自然性、話者の一貫性、感情のアライメント、ターンテイク行動を含む、会話品質の多次元的・多モード的な性質を見落としている。
さらに, エージェントが部分的発話に基づいて決定を下さなければならない, 応答を漸進的に生成する二重音声対話システムと, 基本的には一致しない。
これらの制限をSDSのための最初のマルチリワードRLAIFフレームワークで解決し、セマンティック、オーディオ品質、感情一貫性の報酬を組み合わせた。
重畳モデルにおいて、発話レベルの嗜好をインクリメンタルでブロックワイズな復号化に合わせるために、1つのDPO目標内にターンレベルの選好サンプリングとブロックごとのログ確率の集約を適用する。
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDS品質向上のための選好学習に関する最初の体系的研究を行い,再現可能な研究を支援するためのマルチリワードDPOデータセットをリリースする。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰訓練は意味的品質と音声の自然性において一貫した利得が得られることが示された。
これらの結果は,現実的な会話型SDSにおける総合的多面的アライメントの重要性を強調している。
関連論文リスト
- Multi-granularity Interactive Attention Framework for Residual Hierarchical Pronunciation Assessment [18.97451964522765]
本稿では,粒度をまたいだ双方向モデリングが可能な,新しい階層型対話手法HIAを提案する。
また,音響階層をモデル化する際の特徴忘れ問題を軽減するために,残像階層構造を提案する。
私たちのモデルは、既存の最先端の手法より総合的に先行しています。
論文 参考訳(メタデータ) (2026-01-05T02:43:04Z) - High-Fidelity Speech Enhancement via Discrete Audio Tokens [35.61634772862795]
DAC-SE1は言語モデルに基づくSEフレームワークで、離散的な高解像度オーディオ表現を利用する。
実験の結果,DAC-SE1は客観的指標とMUSHRAによる人的評価の両方において,最先端の自己回帰SE法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-10-02T16:38:05Z) - Session-Level Spoken Language Assessment with a Multimodal Foundation Model via Multi-Target Learning [8.717610965852037]
音声言語アセスメント(SLA)は、学習者の発話能力を自然発話から推定する。
本稿では,セッションレベル評価を単一パスで行う,新しいマルチモーダル基礎モデルを提案する。
論文 参考訳(メタデータ) (2025-09-19T14:33:05Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - Modelling Hierarchical Structure between Dialogue Policy and Natural
Language Generator with Option Framework for Task-oriented Dialogue System [49.39150449455407]
HDNOは、特定の対話行為表現の設計を避けるために潜在対話行為を設計するためのオプションフレームワークである。
RL,LaRL,HDSAで学習した単語レベルE2Eモデルと比較して,マルチドメイン対話のデータセットであるMultiWoz 2.0とMultiWoz 2.1でHDNOをテストする。
論文 参考訳(メタデータ) (2020-06-11T20:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。