論文の概要: WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models
- arxiv url: http://arxiv.org/abs/2602.12135v1
- Date: Thu, 12 Feb 2026 16:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.927065
- Title: WavBench: Benchmarking Reasoning, Colloquialism, and Paralinguistics for End-to-End Spoken Dialogue Models
- Title(参考訳): WavBench: エンドツーエンドの対話モデルのためのベンチマーク推論、コロクアリズム、パラ言語学
- Authors: Yangzhuo Li, Shengpeng Ji, Yifu Chen, Tianle Liang, Haorong Ying, Yule Wang, Junbo Li, Jun Fang, Zhou Zhao,
- Abstract要約: WavBenchは、現実的な会話能力を評価するために設計されたベンチマークである。
複雑な問題解決、口語デリバリ、およびパラ言語的忠実性の共通点に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 46.528618646773175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid integration of advanced reasoning capabilities into spoken dialogue models, the field urgently demands benchmarks that transcend simple interactions to address real-world complexity. However, current evaluations predominantly adhere to text-generation standards, overlooking the unique audio-centric characteristics of paralinguistics and colloquialisms, alongside the cognitive depth required by modern agents. To bridge this gap, we introduce WavBench, a comprehensive benchmark designed to evaluate realistic conversational abilities where prior works fall short. Uniquely, WavBench establishes a tripartite framework: 1) Pro subset, designed to rigorously challenge reasoning-enhanced models with significantly increased difficulty; 2) Basic subset, defining a novel standard for spoken colloquialism that prioritizes "listenability" through natural vocabulary, linguistic fluency, and interactive rapport, rather than rigid written accuracy; and 3) Acoustic subset, covering explicit understanding, generation, and implicit dialogue to rigorously evaluate comprehensive paralinguistic capabilities within authentic real-world scenarios. Through evaluating five state-of-the-art models, WavBench offers critical insights into the intersection of complex problem-solving, colloquial delivery, and paralinguistic fidelity, guiding the evolution of robust spoken dialogue models. The benchmark dataset and evaluation toolkit are available at https://naruto-2024.github.io/wavbench.github.io/.
- Abstract(参考訳): 音声対話モデルへの高度な推論能力の迅速な統合により、現場は、現実世界の複雑さに対処するために単純な相互作用を超越するベンチマークを緊急に要求する。
しかし、現在の評価は、現代のエージェントが必要とする認知深度とともに、パラ言語学と口語学の独特のオーディオ中心の特徴を見越して、テキスト生成標準に大きく依存している。
このギャップを埋めるために、先行作業が不足している現実的な会話能力を評価するために設計された包括的なベンチマークであるWavBenchを紹介する。
独特なことに、WavBenchは三部会の枠組みを確立している。
1) Proサブセットは,難易度を著しく高めた推論強化モデルに厳格に挑戦するよう設計されている。
2) 基本部分集合は、厳密な文章の正確さよりも、自然語彙、言語流布、対話的ラプポートを通じて「聴きやすさ」を優先する、話し言葉の新たな標準を定義する。
3) 音響サブセットは, 実世界のシナリオにおける包括的パラ言語的能力を評価するために, 明瞭な理解, 生成, 暗黙的な対話を包含する。
最先端の5つのモデルを評価することで、WavBenchは複雑な問題解決、口語配信、およびパラ言語的忠実性の交差に関する重要な洞察を与え、堅牢な音声対話モデルの進化を導く。
ベンチマークデータセットと評価ツールキットはhttps://naruto-2024.github.io/wavbench.github.io/で公開されている。
関連論文リスト
- On the Fallacy of Global Token Perplexity in Spoken Language Model Evaluation [88.77441715819366]
大規模生音声で事前訓練された生成音声言語モデルは、適切な内容で音声プロンプトを継続することができる。
本稿では,グローバルトークンの難易度に代えて,多種多様な可能性・生成的評価手法を提案する。
論文 参考訳(メタデータ) (2026-01-09T22:01:56Z) - Audio MultiChallenge: A Multi-Turn Evaluation of Spoken Dialogue Systems on Natural Human Interaction [12.216811577733125]
本稿では,E2E音声対話システムを評価するためのオープンソースのベンチマークであるAudio MultiChallengeを紹介する。
そこで我々は,中発音声の補聴とバックトラックに対する頑健さを検査する新軸音声編集手法を提案する。
47の話者と1,712のインスタンス固有のルーリックとの452の会話を、オーディオネイティブエージェントとヒューマンインザループパイプラインのハイブリッドを通じてキュレートする。
論文 参考訳(メタデータ) (2025-12-16T19:26:44Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Enhancing Semantic Understanding with Self-supervised Methods for
Abstractive Dialogue Summarization [4.226093500082746]
本稿では,対話要約モデルを訓練するための欠点を補う自己教師型手法を提案する。
我々の原理は,対話文表現の文脈化能力を高めるために,前文対話文を用いて不整合情報の流れを検出することである。
論文 参考訳(メタデータ) (2022-09-01T07:51:46Z) - Robustness Testing of Language Understanding in Dialog Systems [33.30143655553583]
自然言語理解モデルの頑健性に関して総合的な評価と分析を行う。
本稿では,実世界の対話システムにおける言語理解に関連する3つの重要な側面,すなわち言語多様性,音声特性,雑音摂動について紹介する。
対話システムにおける堅牢性問題をテストするための自然摂動を近似するモデル非依存型ツールキットLAUGを提案する。
論文 参考訳(メタデータ) (2020-12-30T18:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。