論文の概要: JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2512.12772v1
- Date: Sun, 14 Dec 2025 17:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.429534
- Title: JointAVBench: A Benchmark for Joint Audio-Visual Reasoning Evaluation
- Title(参考訳): JointAVBench: 共同視覚的推論評価のためのベンチマーク
- Authors: Jianghan Chao, Jianzhang Gao, Wenhui Tan, Yuchong Sun, Ruihua Song, Liyun Ru,
- Abstract要約: 我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
最高性能のOmni-LLMでさえ平均精度は62.6%であり、ユニモーダルベースラインを上回っている。
- 参考スコア(独自算出の注目度): 16.067014259345743
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding videos inherently requires reasoning over both visual and auditory information. To properly evaluate Omni-Large Language Models (Omni-LLMs), which are capable of processing multi-modal information including vision and audio, an effective benchmark must comprehensively cover three key aspects: (1) multi-modal dependency (i.e., questions that cannot be answered using vision or audio alone), (2) diverse audio information types (e.g., speech, sound events), and (3) varying scene spans. However, existing datasets fall short in one or more of these dimensions, limiting strict and comprehensive evaluation. To address this gap, we introduce JointAVBench, a novel benchmark with strict audio-video correlation, spanning five cognitive dimensions, four audio information types (speech, sound events, music, vocal traits), and three scene spans (single-, cross-, and full-scene). Given the high cost of manual annotation, we propose an automated pipeline that leverages state-of-the-art vision-LLMs, audio-LLMs, and general-purpose LLMs to synthesize questions and answers that strictly require joint audio-visual understanding. We evaluate leading vision-only, audio-only, and Omni-LLMs on our dataset. Results show that even the best-performing Omni-LLM achieves an average accuracy of only 62.6\%, outperforming uni-modal baselines but revealing substantial room for improvement, especially in cross-scene reasoning.
- Abstract(参考訳): ビデオを理解するには、視覚情報と聴覚情報の両方を推論する必要がある。
Omni-Large Language Models(Omni-LLMs)は、視覚や音声などのマルチモーダル情報を処理できるが、有効なベンチマークでは、(1)マルチモーダル依存(ビジョンや音声だけでは答えられない質問)、(2)多様なオーディオ情報タイプ(音声、音声イベントなど)、(3)多様なシーンスパンの3つの重要な側面を包括的にカバーしなければならない。
しかし、既存のデータセットはこれらの次元の1つまたは複数の部分で不足しており、厳密で包括的な評価を制限している。
このギャップに対処するために,5つの認知次元,4つの音声情報タイプ(音声,音声イベント,音楽,発声特性),3つのシーンスパン(シングル,クロス,フルシーン)にまたがる厳密な音声・ビデオ相関を持つ新しいベンチマークであるJointAVBenchを紹介した。
手動アノテーションのコストが高くなると、最先端のビジョン-LLM、オーディオ-LLM、汎用LLMを活用して、音声-視覚的理解を厳密に要求する質問や回答を合成する自動パイプラインを提案する。
我々は、データセット上で、視覚のみ、音声のみ、およびOmni-LLMを優先的に評価する。
その結果、最も優れたOmni-LLMでさえ平均精度は62.6 %であり、ユニモーダルベースラインよりも優れているが、特にクロスシーンの推論において改善の余地があることが判明した。
関連論文リスト
- Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception [97.32606786622728]
我々は、データパイプライン、モデル、ベンチマークの観点から、Omniの詳細な認識を体系的で包括的に調査する。
ツールコールを統合したエージェントデータ生成パイプラインであるOmni-Detectiveを提案する。
Omni-Detectiveで生成されたデータに基づいて、2つのキャプションモデル:音声のみの詳細な知覚のためのオーディオ・キャプション・キャプション・モデルと、音声視覚による詳細な知覚のためのOmni-Captionerを訓練する。
論文 参考訳(メタデータ) (2025-10-14T17:00:09Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Fine-grained Audio-Visual Joint Representations for Multimodal Large
Language Models [25.660343393359565]
本稿では,マルチモーダル大言語モデル(LLM)のための微細な音声-視覚共同表現(FAVOR)学習フレームワークを提案する。
FAVORは、音声入力ストリーム内の音声および音声イベントと、視覚入力ストリーム内の画像またはビデオを、フレームレベルで同時に知覚する。
FAVORのインタラクティブなデモはhttps://github.com/BriansIDP/AudioVisualLLM.gitで公開されている。
論文 参考訳(メタデータ) (2023-10-09T17:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。