論文の概要: MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
- arxiv url: http://arxiv.org/abs/2503.21699v1
- Date: Thu, 27 Mar 2025 17:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:53:47.145536
- Title: MAVERIX: Multimodal Audio-Visual Evaluation Reasoning IndeX
- Title(参考訳): MAVERIX: IndeXのマルチモーダルオーディオ・ビジュアル評価
- Authors: Liuyue Xie, George Z. Wei, Avik Kuthiala, Ce Zheng, Ananya Bal, Mosam Dabhi, Liting Wen, Taru Rustagi, Ethan Lai, Sushil Khyalia, Rohan Choudhury, Morteza Ziyadi, Xu Zhang, Hao Yang, László A. Jeni,
- Abstract要約: MAVERIX (Multimodal Audio-Visual Evaluation Reasoning IndeX) は700の動画と2,556の質問を含む新しいベンチマークである。
映像と音声の密接な統合を必要とするタスクを通じて、マルチモーダルモデルを評価するように設計されている。
Gemini 1.5 Proやo1といった最先端モデルによる実験は、人間のレベルに近づくパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 15.038202110401336
- License:
- Abstract: Frontier models have either been language-only or have primarily focused on vision and language modalities. Although recent advancements in models with vision and audio understanding capabilities have shown substantial progress, the field lacks a standardized evaluation framework for thoroughly assessing their cross-modality perception performance. We introduce MAVERIX~(Multimodal Audio-Visual Evaluation Reasoning IndeX), a novel benchmark with 700 videos and 2,556 questions explicitly designed to evaluate multimodal models through tasks that necessitate close integration of video and audio information. MAVERIX uniquely provides models with audiovisual tasks, closely mimicking the multimodal perceptual experiences available to humans during inference and decision-making processes. To our knowledge, MAVERIX is the first benchmark aimed explicitly at assessing comprehensive audiovisual integration. Experiments with state-of-the-art models, including Gemini 1.5 Pro and o1, show performance approaching human levels (around 70% accuracy), while human experts reach near-ceiling performance (95.1%). With standardized evaluation protocols, a rigorously annotated pipeline, and a public toolkit, MAVERIX establishes a challenging testbed for advancing audiovisual multimodal intelligence.
- Abstract(参考訳): フロンティアモデルは言語のみか、主に視覚と言語モダリティに焦点を当てている。
近年の視覚と音声の理解能力を持つモデルの進歩は著しい進歩を見せているが、その分野は、モダリティ間の知覚性能を徹底的に評価するための、標準化された評価枠組みを欠いている。
700の動画と2,556の質問がビデオとオーディオ情報の緊密な統合を必要とするタスクを通じてマルチモーダルモデルを評価するように設計された新しいベンチマークであるMAVERIX~(Multimodal Audio-Visual Evaluation Reasoning IndeX)を紹介する。
MAVERIXは、推論と意思決定プロセスにおいて人間が利用できるマルチモーダル知覚体験を忠実に模倣した、オーディオ視覚タスクのモデルを提供する。
私たちの知る限り、MAVERIXは包括的オーディオ視覚統合を評価することを目的とした最初のベンチマークです。
Gemini 1.5 Pro や o1 など最先端のモデルを用いた実験では、人間のレベルに近づく性能(精度はおよそ70%)が示され、一方で人間の専門家は、ほぼ耐久性能(95.1%)に達する。
標準化された評価プロトコル、厳密な注釈付きパイプライン、公開ツールキットにより、MAVERIXは、オーディオ視覚マルチモーダルインテリジェンスを進化させるための挑戦的なテストベッドを確立する。
関連論文リスト
- WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs [44.28540993567552]
マルチモーダルビデオ理解を評価する最初のベンチマークであるWorldSenseを紹介する。
音声とビデオの強い結合を特徴とする評価タスクを設計する。
WorldSenseは1,662本のオーディオ視覚同期ビデオの多様なコレクションを含んでいる。
論文 参考訳(メタデータ) (2025-02-06T18:59:40Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis [118.08008540513596]
Video-MMEは、ビデオ解析におけるMLLMの完全なマルチモード評価ベンチマークである。
我々は,GPT-4シリーズやGemini 1.5 Pro,オープンソース画像モデルなど,最先端のMLLMを幅広く評価した。
我々の実験によると、Gemini 1.5 Proは最も優れた商用モデルであり、オープンソースモデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-31T17:59:47Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。
voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。
この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文 参考訳(メタデータ) (2021-02-11T22:29:25Z) - Large Scale Audiovisual Learning of Sounds with Weakly Labeled Data [9.072124914105325]
本稿では、弱いラベル付きビデオ記録から音を認識することを学習するオーディオ視覚融合モデルを提案する。
大規模音響イベントデータセットであるAudioSetの実験は,提案モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-29T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。