論文の概要: See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2512.02231v1
- Date: Mon, 01 Dec 2025 21:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.625837
- Title: See, Hear, and Understand: Benchmarking Audiovisual Human Speech Understanding in Multimodal Large Language Models
- Title(参考訳): 聴覚と理解:多モーダル大言語モデルにおける視覚的人間の音声理解のベンチマーク
- Authors: Le Thien Phuc Nguyen, Zhuoran Yu, Samuel Low Yu Hang, Subin An, Jeongik Lee, Yohan Ban, SeungEun Chung, Thanh-Huy Nguyen, JuWan Maeng, Soochahn Lee, Yong Jae Lee,
- Abstract要約: AV-SpeakerBenchは、現実世界のビデオにおける話者中心のオーディオヴィジュアル推論に焦点を当てた、3,212のマルチチョイス質問のベンチマークである。
その特徴は,(1)話者中心の場面を中心的推論単位として扱う話者中心の定式化,(2)音声の視覚的依存を質問意味論に組み込む融合型質問設計,(3)時間的精度と横断的妥当性を保証する専門家計算アノテーションである。
- 参考スコア(独自算出の注目度): 24.851643680674474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal large language models (MLLMs) are expected to jointly interpret vision, audio, and language, yet existing video benchmarks rarely assess fine-grained reasoning about human speech. Many tasks remain visually solvable or only coarsely evaluate speech, offering limited insight into whether models can align who speaks, what is said, and when it occurs. We introduce AV-SpeakerBench, a curated benchmark of 3,212 multiple-choice questions focused on speaker-centric audiovisual reasoning in real-world videos. It features: (1) a speaker-centered formulation that treats speakers-not scenes-as the core reasoning unit; (2) fusion-grounded question design embedding audiovisual dependencies into question semantics; and (3) expert-curated annotations ensuring temporal precision and cross-modal validity. Comprehensive evaluations show that the Gemini family consistently outperforms open-source systems, with Gemini 2.5 Pro achieving the best results. Among open models, Qwen3-Omni-30B approaches Gemini 2.0 Flash but remains far behind Gemini 2.5 Pro, primarily due to weaker audiovisual fusion rather than visual perception. We believe AV-SpeakerBench establishes a rigorous foundation for advancing fine-grained audiovisual reasoning in future multimodal systems.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、視覚、音声、言語を共同で解釈することが期待されているが、既存のビデオベンチマークでは人間の発話に関する微妙な推論を評価することはめったにない。
多くのタスクは、視覚的に解決可能か、音声を粗末に評価するのみであり、モデルが誰が話すか、何を言ったか、いつ起こるかについての限られた洞察を提供する。
AV-SpeakerBenchは、実世界のビデオにおける話者中心の音声視覚推論に焦点を当てた、3,212のマルチチョイス質問のキュレートされたベンチマークである。
本研究は,(1)話者中心の場面を中核的推論単位として扱う話者中心の定式化,(2)音声の視覚的依存性を質問意味論に埋め込んだ融合型質問設計,(3)時間的精度と横断的妥当性を保証する専門家計算アノテーションを特徴とする。
総合的な評価によると、Geminiファミリは一貫してオープンソースシステムより優れており、Gemini 2.5 Proは最高の成果を上げている。
オープンモデルの中で、Qwen3-Omni-30BはGemini 2.0 Flashに近づいたが、主に視覚的知覚よりもオーディオ視覚融合が弱いため、Gemini 2.5 Proよりはるかに遅れている。
AV-SpeakerBenchは、将来のマルチモーダルシステムにおいて、きめ細かいオーディオ視覚的推論を促進するための厳密な基盤を確立していると信じている。
関連論文リスト
- ELEGANCE: Efficient LLM Guidance for Audio-Visual Target Speech Extraction [88.41471266579333]
本稿では,大規模言語モデル(LLM)からの言語知識をAV-TSEモデルに組み込む新しいフレームワークであるELEGANCEを提案する。
2つのAV-TSEバックボーン上でのRoBERTa、Qwen3-0.6B、Qwen3-4Bによる総合的な実験は大幅に改善された。
論文 参考訳(メタデータ) (2025-11-09T08:50:11Z) - M3-SLU: Evaluating Speaker-Attributed Reasoning in Multimodal Large Language Models [15.324265847938813]
マルチ話者・マルチターン音声言語理解のためのマルチモーダル大規模言語モデル(MLLM)ベンチマークであるM3-SLUを提案する。
M3-SLUは4つのオープンコーパス(CHiME-6、MELD、MultiDialog、AMI)から構築され、12,000以上の検証済みインスタンスとペアオーディオ、トランスクリプト、メタデータで構成されている。
結果は、モデルが発言をキャプチャできる一方で、誰が言ったかを特定するのに失敗し、話者認識の対話理解における重要なギャップを明らかにしていることを示している。
論文 参考訳(メタデータ) (2025-10-22T08:28:43Z) - VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents [53.33704332801441]
大規模音声言語モデル (LALM) は多モード対話システムを大幅に強化した。
既存のベンチマークは主に英語中心であり、合成音声に依存しており、包括的で差別的な評価を欠いている。
我々はVoice Chat Bot Bench(VCB Bench)を紹介します。
論文 参考訳(メタデータ) (2025-10-13T07:45:52Z) - VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing [45.15289852736435]
VoiceAssistant-Evalは、13のタスクカテゴリにまたがる10,497のキュレートされた例で構成されている。
実用性を示すため,21のオープンソースモデルとGPT-4o-Audioを評価した。
プロプライエタリなモデルは、オープンソースモデルより普遍的に優れているわけではない。
論文 参考訳(メタデータ) (2025-09-26T17:59:59Z) - MultiVox: A Benchmark for Evaluating Voice Assistants for Multimodal Interactions [70.93364531054273]
音声と視覚を融合させる音声アシスタントの能力を評価する最初のベンチマークであるMultiVoxを紹介する。
具体的には、MultiVoxには、多種多様なパラ言語的特徴を包含する1000の人間の注釈付き音声対話が含まれている。
10の最先端モデルに対する我々の評価は、人間はこれらのタスクに長けているが、現在のモデルは、常に文脈的に接地された応答を生成するのに苦労していることを示している。
論文 参考訳(メタデータ) (2025-07-14T23:20:42Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking
Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。
我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。
本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文 参考訳(メタデータ) (2020-06-20T16:32:43Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。