論文の概要: WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
- arxiv url: http://arxiv.org/abs/2604.14932v1
- Date: Thu, 16 Apr 2026 12:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.887634
- Title: WavAlign: Enhancing Intelligence and Expressiveness in Spoken Dialogue Models via Adaptive Hybrid Post-Training
- Title(参考訳): WavAlign:Adaptive Hybrid Post-Trainingによる音声対話モデルにおけるインテリジェンスと表現性の向上
- Authors: Yifu Chen, Shengpeng Ji, Qian Chen, Tianle Liang, Yangzhuo Li, Ziqing Wang, Wen Wang, Jingyu Lu, Haoxiao Wang, Xueyi Pu, Fan Zhuo, Zhou Zhao,
- Abstract要約: 音声対話のためのモーダルアウェア適応後学習レシピを提案する。
セマンティックチャネルに対する好みの更新を制限し、明示的なアンカーによって音響的振る舞いを改善する。
提案手法は,複数の音声対話ベンチマークと代表アーキテクチャにまたがって評価する。
- 参考スコア(独自算出の注目度): 42.85483422955689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end spoken dialogue models have garnered significant attention because they offer a higher potential ceiling in expressiveness and perceptual ability than cascaded systems. However, the intelligence and expressiveness of current open-source spoken dialogue models often remain below expectations. Motivated by the success of online reinforcement learning(RL) in other domains, one might attempt to directly apply preference optimization to spoken dialogue models, yet this transfer is non-trivial. We analyze these obstacles from the perspectives of reward modeling and rollout sampling, focusing on how sparse preference supervision interacts with dense speech generation under shared-parameter updates. Based on the analysis, we propose a modality-aware adaptive post-training recipe that makes RL practical for spoken dialogue: it constrains preference updates to the semantic channel and improves acoustic behavior via explicit anchoring, while dynamically regulating their mixture from rollout statistics to avoid unreliable preference gradients. We evaluate the method across multiple spoken dialogue benchmarks and representative architectures, and observe consistent improvements in semantic quality and speech expressiveness.
- Abstract(参考訳): エンド・ツー・エンドの音声対話モデルは、ケースドシステムよりも表現力や知覚能力が高い可能性の高い天井を提供するため、大きな注目を集めている。
しかし、現在のオープンソースの音声対話モデルの知能と表現力は、しばしば期待を下回る。
他のドメインでのオンライン強化学習(RL)の成功により、音声対話モデルに好みの最適化を直接適用しようとするかもしれないが、この変換は簡単ではない。
報奨モデルとロールアウトサンプリングの観点からこれらの障害を解析し,共有パラメータ更新の下での疎選好監督が高密度音声生成とどのように相互作用するかに着目した。
そこで本研究では,音声対話においてRLを実用的にするためのモータリティ適応型後学習レシピを提案する。これは意味チャネルの好みの更新を制約し,明示的なアンカーによる音響的動作を改善すると同時に,ロールアウト統計から混合物を動的に制御し,信頼性の低い嗜好勾配を回避することを目的としている。
提案手法は,複数の音声対話ベンチマークと代表的アーキテクチャにまたがって評価し,セマンティック品質と音声表現性における一貫した改善を観察する。
関連論文リスト
- Covo-Audio Technical Report [61.09708870154148]
7BバックエンドのLALMであるCovo-Audioは、連続的なオーディオ入力を直接処理し、単一の統一アーキテクチャ内でオーディオ出力を生成する。
対話指向の変種であるCovo-Audio-Chatは、意味的に強い会話能力を示す。
論文 参考訳(メタデータ) (2026-02-10T14:31:11Z) - Optimizing Conversational Quality in Spoken Dialogue Systems with Reinforcement Learning from AI Feedback [82.70507055599093]
本稿では,マルチターン・チェーン・オブ・ソートモデルとブロックワイド・デュプレックスモデルの両方において,SDSの品質向上のための選好学習に関する最初の体系的研究を行う。
実験により, 単一回帰RLAIFは目標距離を選択的に改善し, 連立多重回帰学習は意味的品質と音声の自然性において一貫した利得が得られることが示された。
論文 参考訳(メタデータ) (2026-01-27T00:55:14Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [8.717610965852037]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - Harmonizing Large Language Models with Collaborative Behavioral Signals for Conversational Recommendation [20.542601754190073]
本研究は、潜在的嗜好モデルを用いて、対話的相互作用と行動パターンを相乗化する新しい確率的枠組みを提案する。
このフレームワークは、まず、確立された協調フィルタリング技術を通して潜在的嗜好表現を導出し、次にこれらの表現を用いて、言語的嗜好表現と行動パターンの両方を共同で洗練する。
論文 参考訳(メタデータ) (2025-03-12T09:01:09Z) - Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust
Conversational Modeling [3.3578533367912025]
本稿では,対話コンテキストの拡張バージョンを学習目的に組み込むフレームワークを提案する。
提案手法は,従来のデータ拡張手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-15T23:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。