論文の概要: WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
- arxiv url: http://arxiv.org/abs/2505.09558v1
- Date: Wed, 14 May 2025 16:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.537044
- Title: WavReward: Spoken Dialogue Models With Generalist Reward Evaluators
- Title(参考訳): WavReward:ジェネラリストによる対話モデル
- Authors: Shengpeng Ji, Tianle Liang, Yangzhuo Li, Jialong Zuo, Minghui Fang, Jinzheng He, Yifu Chen, Zhengqing Liu, Ziyue Jiang, Xize Cheng, Siqi Zheng, Jin Xu, Junyang Lin, Zhou Zhao,
- Abstract要約: WavRewardは、音声入力による音声対話システムのIQとEQを評価することができる報酬フィードバックモデルである。
ChatReward-30Kは、WavRewardのトレーニングに使用される好みのデータセットである。
WavRewardは、複数の音声対話シナリオで過去の最先端評価モデルより優れている。
- 参考スコア(独自算出の注目度): 57.80264359636158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end spoken dialogue models such as GPT-4o-audio have recently garnered significant attention in the speech domain. However, the evaluation of spoken dialogue models' conversational performance has largely been overlooked. This is primarily due to the intelligent chatbots convey a wealth of non-textual information which cannot be easily measured using text-based language models like ChatGPT. To address this gap, we propose WavReward, a reward feedback model based on audio language models that can evaluate both the IQ and EQ of spoken dialogue systems with speech input. Specifically, 1) based on audio language models, WavReward incorporates the deep reasoning process and the nonlinear reward mechanism for post-training. By utilizing multi-sample feedback via the reinforcement learning algorithm, we construct a specialized evaluator tailored to spoken dialogue models. 2) We introduce ChatReward-30K, a preference dataset used to train WavReward. ChatReward-30K includes both comprehension and generation aspects of spoken dialogue models. These scenarios span various tasks, such as text-based chats, nine acoustic attributes of instruction chats, and implicit chats. WavReward outperforms previous state-of-the-art evaluation models across multiple spoken dialogue scenarios, achieving a substantial improvement about Qwen2.5-Omni in objective accuracy from 55.1$\%$ to 91.5$\%$. In subjective A/B testing, WavReward also leads by a margin of 83$\%$. Comprehensive ablation studies confirm the necessity of each component of WavReward. All data and code will be publicly at https://github.com/jishengpeng/WavReward after the paper is accepted.
- Abstract(参考訳): GPT-4o-audioのようなエンドツーエンドの音声対話モデルは、最近、音声領域において大きな注目を集めている。
しかし,音声対話モデルの対話性能の評価は概ね見過ごされている。
これは、チャットボットが、ChatGPTのようなテキストベースの言語モデルでは容易に測定できない、豊富な非テキスト情報を伝達しているためである。
このギャップに対処するために、音声入力による音声対話システムのIQとEQの両方を評価することができる音声言語モデルに基づく報酬フィードバックモデルWavRewardを提案する。
具体的には
1) 音声言語モデルに基づいて,WavReward は深部推論と非線形報酬機構を取り入れた。
強化学習アルゴリズムによるマルチサンプルフィードバックを利用して、音声対話モデルに適した特殊評価器を構築する。
2) We introduced ChatReward-30K, a preference dataset used to training WavReward。
ChatReward-30Kは音声対話モデルの理解と生成の両方の側面を含む。
これらのシナリオは、テキストベースのチャット、9つの命令チャットの音響特性、暗黙のチャットなど、さまざまなタスクにまたがる。
WavRewardは、複数の音声対話シナリオで過去の最先端評価モデルより優れており、目標精度が55.1$\%$から91.5$\%$に大幅に改善されている。
主観的なA/Bテストでは、WavRewardは83$\%のマージンを持つ。
包括的アブレーション研究により、WavRewardの各成分の必要性が確認された。
すべてのデータとコードは、論文が受理された後、https://github.com/jishengpeng/WavRewardで公開される。
関連論文リスト
- ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching [22.477986192421767]
本稿では,フローマッチングに基づく非自己回帰音声対話生成モデルZipVoice-Dialogを紹介する。
主なデザインは、正確な話者のターンテイクのためのスピーカーターン埋め込みである。
我々は6.8khの音声対話データセットであるOpenDialogを、帯域内音声データからキュレートした。
論文 参考訳(メタデータ) (2025-07-12T15:18:47Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - Speaker Sensitive Response Evaluation Model [17.381658875470638]
本稿では,生成した応答と会話コンテキストとの類似性に基づく自動評価モデルを提案する。
ラベルのない会話コーパスからモデルパラメータを学習する。
我々のモデルは、追加の訓練なしに映画対話に適用できることが示される。
論文 参考訳(メタデータ) (2020-06-12T08:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。