論文の概要: MTalk-Bench: Evaluating Speech-to-Speech Models in Multi-Turn Dialogues via Arena-style and Rubrics Protocols
- arxiv url: http://arxiv.org/abs/2508.18240v2
- Date: Mon, 15 Sep 2025 14:50:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.368726
- Title: MTalk-Bench: Evaluating Speech-to-Speech Models in Multi-Turn Dialogues via Arena-style and Rubrics Protocols
- Title(参考訳): MTalk-Bench:Arena-styleおよびRubricsプロトコルを用いた多言語対話における音声合成モデルの評価
- Authors: Yuhao Du, Qianwei Huang, Guo Zhu, Zhanchen Dai, Shunian Chen, Qiming Zhu, Le Pan, Minghao Chen, Yuhao Zhang, Li Zhou, Benyou Wang, Haizhou Li,
- Abstract要約: MTalk-Benchは、セマンティックインフォメーション、パラ言語情報、アンビエントサウンドの3つのコアディメンションをカバーするマルチターンS2Sベンチマークである。
両手法評価フレームワークは,相対的,絶対的評価にアリーナ式評価(ペアワイズ比較)と絶対的評価(絶対的評価)を組み合わせる。
結果は、S2S評価の現在の制限と、より堅牢で音声対応のアセスメントフレームワークの必要性を強調している。
- 参考スコア(独自算出の注目度): 46.82669096251444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of speech-to-speech (S2S) large language models (LLMs) has significantly improved real-time spoken interaction. However, current evaluation frameworks remain inadequate for assessing performance in complex, multi-turn dialogues. To address this, we introduce MTalk-Bench, a multi-turn S2S benchmark covering three core dimensions: Semantic Information, Paralinguistic Information, and Ambient Sound. Each dimension includes nine realistic scenarios, along with targeted tasks to assess specific capabilities such as reasoning. Our dual-method evaluation framework combines Arena-style evaluation (pairwise comparison) and Rubrics-based evaluation (absolute scoring) for relative and absolute assessment. The benchmark includes both model and human outputs, evaluated by human evaluators and LLMs. Experimental results reveal two sets of findings. Overall performance of S2S LLMs: (1) models excel at semantic information processing yet underperform on paralinguistic information and ambient sounds perception; (2) models typically regain coherence by increasing response length, sacrificing efficiency in multi-turn dialogues; (3) modality-aware, task-specific designs outperform brute scaling. Evaluation framework and reliability: (1) Arena and Rubrics yield consistent, complementary rankings, but reliable distinctions emerge only when performance gaps are large; (2) LLM-as-a-judge aligns with humans when gaps are clear or criteria explicit, but exhibits position and length biases and is reliable on nonverbal evaluation only with text annotations. These results highlight current limitations in S2S evaluation and the need for more robust, speech-aware assessment frameworks.
- Abstract(参考訳): 音声合成(S2S)大言語モデル(LLM)の急速な進歩により、リアルタイム音声対話は大幅に改善された。
しかし、現在の評価フレームワークは複雑なマルチターン対話における性能評価に不十分なままである。
そこで我々は,MTalk-BenchというマルチターンS2Sベンチマークを,セマンティックインフォメーション,パラ言語情報,アンビエントサウンドの3つのコアディメンションについて紹介する。
各次元には9つの現実的なシナリオと、推論のような特定の能力を評価するためのタスクが含まれます。
両手法評価フレームワークは,相対的,絶対的な評価のためにアリーナ式評価(ペアワイズ比較)とルーブリック型評価(絶対スコア)を組み合わせる。
このベンチマークには、人間評価器とLLMによって評価されるモデルと人間の出力の両方が含まれている。
実験結果から2つの結果が得られた。
S2S LLMの全体的な性能は,(1)パラ言語的情報や環境音の知覚に未熟なセマンティック情報処理に優れるモデル,(2)応答長の増大によるコヒーレンス回復,(3)モダリティ認識,タスク固有の設計,などである。
評価枠組みと信頼性:(1)アリーナとルブリックは、パフォーマンスギャップが大きい場合にのみ、一貫した、相補的なランキングを得られるが、信頼性の高い区別が現れる。(2) LLM-as-a-judgeは、ギャップが明確または明確であるときに人間と一致するが、位置と長さの偏りを示し、テキストアノテーションのみでの非言語評価に信頼性がある。
これらの結果は、S2S評価における現在の制限と、より堅牢で音声対応のアセスメントフレームワークの必要性を強調している。
関連論文リスト
- Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要なインタラクティブな振る舞いを体系的に評価するベンチマークである。
ベンチマークコードを公開することによって、音声対話モデリングの進歩と、より自然で魅力的なSDMの開発を目指しています。
論文 参考訳(メタデータ) (2025-03-06T18:59:16Z) - URO-Bench: Towards Comprehensive Evaluation for End-to-End Spoken Dialogue Models [8.882948576463244]
音声合成(S2S)シナリオの広範なベンチマークであるURO-Benchを提案する。
URO-BenchはS2Sベンチマークで、多言語主義、多ラウンド対話、パラ言語学の評価をカバーしている。
我々のベンチマークは、基本トラックとプロトラックの2つの難易度に分けられ、それぞれが20のテストセットで構成されている。
論文 参考訳(メタデータ) (2025-02-25T03:31:48Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。