論文の概要: VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
- arxiv url: http://arxiv.org/abs/2510.11098v1
- Date: Mon, 13 Oct 2025 07:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.24817
- Title: VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents
- Title(参考訳): VCB Bench: 大規模言語モデル対話エージェントの評価ベンチマーク
- Authors: Jiliang Hu, Wenfu Wang, Zuchao Li, Chenxing Li, Yiyang Zhao, Hanzhao Li, Liqiang Zhang, Meng Yu, Dong Yu,
- Abstract要約: 大規模音声言語モデル (LALM) は多モード対話システムを大幅に強化した。
既存のベンチマークは主に英語中心であり、合成音声に依存しており、包括的で差別的な評価を欠いている。
我々はVoice Chat Bot Bench(VCB Bench)を紹介します。
- 参考スコア(独自算出の注目度): 53.33704332801441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large audio language models (LALMs) have greatly enhanced multimodal conversational systems. However, existing benchmarks remain limited -- they are mainly English-centric, rely on synthetic speech, and lack comprehensive, discriminative evaluation across multiple dimensions. To address these gaps, we present Voice Chat Bot Bench (VCB Bench) -- a high-quality Chinese benchmark built entirely on real human speech. VCB Bench evaluates LALMs from three complementary perspectives: instruction following (including speech-level control beyond text commands), knowledge understanding (general knowledge, reasoning, and daily dialogue), and robustness (stability under perturbations in content, environment, and speaker traits). Experiments on representative LALMs reveal notable performance gaps and highlight future directions for improvement. VCB Bench provides a reproducible and fine-grained evaluation framework, offering standardized methodology and practical insights for advancing Chinese voice conversational models.
- Abstract(参考訳): 大規模音声言語モデル(LALM)の最近の進歩は、多モーダル対話システムを大幅に強化している。
しかし、既存のベンチマークは限定的であり、主に英語中心であり、合成音声に依存しており、複数の次元にわたる包括的で差別的な評価を欠いている。
これらのギャップに対処するため、我々はVoice Chat Bot Bench (VCB Bench)を紹介します。
VCB Bench は LALM を3つの補完的な視点から評価している: 命令従属(テキストコマンドを超えた音声レベルの制御を含む)、知識理解(一般的な知識、推論、日々の対話)、堅牢性(コンテンツ、環境、話者特性の摂動下での安定性)。
代表的LALMの実験は、顕著なパフォーマンスギャップを明らかにし、改善のための今後の方向性を強調している。
VCB Benchは再現性が高くきめ細かな評価フレームワークを提供し、中国の音声対話モデルを進めるための標準化された方法論と実践的な洞察を提供する。
関連論文リスト
- VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing [45.15289852736435]
VoiceAssistant-Evalは、13のタスクカテゴリにまたがる10,497のキュレートされた例で構成されている。
実用性を示すため,21のオープンソースモデルとGPT-4o-Audioを評価した。
プロプライエタリなモデルは、オープンソースモデルより普遍的に優れているわけではない。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - URO-Bench: Towards Comprehensive Evaluation for End-to-End Spoken Dialogue Models [8.882948576463244]
音声合成(S2S)シナリオの広範なベンチマークであるURO-Benchを提案する。
URO-BenchはS2Sベンチマークで、多言語主義、多ラウンド対話、パラ言語学の評価をカバーしている。
我々のベンチマークは、基本トラックとプロトラックの2つの難易度に分けられ、それぞれが20のテストセットで構成されている。
論文 参考訳(メタデータ) (2025-02-25T03:31:48Z) - Benchmarking Open-ended Audio Dialogue Understanding for Large Audio-Language Models [58.43486430996411]
LALM(Large Audio-Language Models)は、最近、人間との直接の音声交換を可能にする音声対話機能をアンロックした。
オープンエンド音声対話理解におけるLALMの性能を評価するための音声対話理解ベンチマーク(ADU-Bench)を提案する。
ADU-Benchには、LALMの評価のための2万以上のオープンエンドオーディオダイアログが含まれている。
論文 参考訳(メタデータ) (2024-12-06T16:34:15Z) - VoiceBench: Benchmarking LLM-Based Voice Assistants [58.84144494938931]
大規模言語モデル(LLM)に基づいて音声アシスタントを評価する最初のベンチマークであるVoiceBenchを紹介する。
VoiceBenchには、上記の3つの重要な実世界のバリエーションを含む、実話と合成音声の両方が含まれている。
大規模な実験は、現在のLLMベースの音声アシスタントモデルの限界を明らかにし、この分野における将来の研究・開発に貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-10-22T17:15:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。