論文の概要: VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
- arxiv url: http://arxiv.org/abs/2509.22651v1
- Date: Fri, 26 Sep 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.646009
- Title: VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
- Title(参考訳): VoiceAssistant-Eval: リスニング、講演、視聴にまたがるAIアシスタントのベンチマーク
- Authors: Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li,
- Abstract要約: VoiceAssistant-Evalは、13のタスクカテゴリにまたがる10,497のキュレートされた例で構成されている。
実用性を示すため,21のオープンソースモデルとGPT-4o-Audioを評価した。
プロプライエタリなモデルは、オープンソースモデルより普遍的に優れているわけではない。
- 参考スコア(独自算出の注目度): 45.15289852736435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems' capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dialogue for listening; multi-turn dialogue, role-play imitation, and various scenarios for speaking; and highly heterogeneous images for viewing. To demonstrate its utility, we evaluate 21 open-source models and GPT-4o-Audio, measuring the quality of the response content and speech, as well as their consistency. The results reveal three key findings: (1) proprietary models do not universally outperform open-source models; (2) most models excel at speaking tasks but lag in audio understanding; and (3) well-designed smaller models can rival much larger ones. Notably, the mid-sized Step-Audio-2-mini (7B) achieves more than double the listening accuracy of LLaMA-Omni2-32B-Bilingual. However, challenges remain: multimodal (audio plus visual) input and role-play voice imitation tasks are difficult for current models, and significant gaps persist in robustness and safety alignment. VoiceAssistant-Eval identifies these gaps and establishes a rigorous framework for evaluating and guiding the development of next-generation AI assistants. Code and data will be released at https://mathllm.github.io/VoiceAssistantEval/ .
- Abstract(参考訳): 大規模言語モデルとマルチモーダルシステムの能力の増大は音声ファーストAIアシスタントへの関心を喚起しているが、既存のベンチマークはこれらのシステムの機能の全範囲を評価するには不十分である。
我々はVoiceAssistant-Evalを紹介した。これはAIアシスタントを聴く、話す、見る間で評価するための総合的なベンチマークである。
VoiceAssistant-Evalは、13のタスクカテゴリにまたがる10,497のキュレートされた例で構成されている。
これらのタスクには、自然の音、音楽、聞き取りのための音声対話、マルチターン対話、ロールプレイの模倣、話すための様々なシナリオ、観察のための非常に異質な画像が含まれる。
実用性を示すため,21個のオープンソースモデルとGPT-4o-Audioを評価し,応答内容と音声の質と一貫性を評価する。
その結果,(1) プロプライエタリモデルがオープンソースモデルより普遍的に優れていること,(2) 発話タスクに優れ,音声理解に遅れがあること,(3) 優れた設計の小型モデルがより大きなモデルに匹敵する可能性があること,の3つの重要な結果が得られた。
特に、中型のStep-Audio-2-mini (7B)はLLaMA-Omni2-32B-バイリンガルの聴取精度を2倍以上に向上させる。
マルチモーダル(オーディオ+ビジュアル)入力とロールプレイ音声模倣タスクは、現在のモデルでは困難であり、ロバストネスと安全アライメントにおいて大きなギャップが持続する。
VoiceAssistant-Evalは、これらのギャップを特定し、次世代AIアシスタントの開発を評価し、導くための厳格なフレームワークを確立する。
コードとデータはhttps://mathllm.github.io/VoiceAssistantEval/で公開される。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - Step-Audio: Unified Understanding and Generation in Intelligent Speech Interaction [110.38946048535033]
本稿では,音声認識のための最初のプロダクション対応オープンソースソリューションであるStep-Audioを紹介する。
1) 統合された理解と生成を実現する統合音声テキストマルチモーダルモデル、2) 安価な音声クローニングフレームワークを確立し、蒸留によりオープンソースで軽量なStep-Audio-TTS-3Bモデルを生産する生成音声データエンジン、3) 方言、感情、歌、RAP間の動的調整を可能にする命令駆動型微制御システム、4) ツールコールとロールプレイング機能を備えた強化認知アーキテクチャ。
論文 参考訳(メタデータ) (2025-02-17T15:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。