論文の概要: Audio-centric Video Understanding Benchmark without Text Shortcut
- arxiv url: http://arxiv.org/abs/2503.19951v2
- Date: Tue, 09 Sep 2025 16:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.787363
- Title: Audio-centric Video Understanding Benchmark without Text Shortcut
- Title(参考訳): テキストショートカットのない音声中心映像理解ベンチマーク
- Authors: Yudong Yang, Jimin Zhuang, Guangzhi Sun, Changli Tang, Yixuan Li, Peihan Li, Yifan Jiang, Wei Li, Zejun Ma, Chao Zhang,
- Abstract要約: 音声視覚大言語モデル(LLM)の映像理解タスクにおける補助的モダリティとして機能することも多い。
本稿では,マルチモーダルLLMの映像理解能力を評価するために,AVUT(Audio-centric video understanding benchmark)を提案する。
- 参考スコア(独自算出の注目度): 49.01648001666229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio often serves as an auxiliary modality in video understanding tasks of audio-visual large language models (LLMs), merely assisting in the comprehension of visual information. However, a thorough understanding of videos significantly depends on auditory information, as audio offers critical context, emotional cues, and semantic meaning that visual data alone often lacks. This paper proposes an audio-centric video understanding benchmark (AVUT) to evaluate the video comprehension capabilities of multimodal LLMs with a particular focus on auditory information. AVUT introduces a suite of carefully designed audio-centric tasks, holistically testing the understanding of both audio content and audio-visual interactions in videos. Moreover, this work points out the text shortcut problem that largely exists in other benchmarks where the correct answer can be found from question text alone without needing videos. AVUT addresses this problem by proposing a answer permutation-based filtering mechanism. A thorough evaluation across a diverse range of open-source and proprietary multimodal LLMs is performed, followed by the analyses of deficiencies in audio-visual LLMs. Demos and data are available at https://github.com/lark-png/AVUT.
- Abstract(参考訳): オーディオはしばしば、視覚的大言語モデル(LLM)の映像理解タスクにおいて補助的なモダリティとして機能し、単に視覚情報の理解を支援するだけである。
しかし、ビデオの徹底的な理解は、音声が重要な文脈、感情的手がかり、意味的意味を提供するので、視覚的データだけが欠落することが多いため、聴覚情報に大きく依存する。
本稿では,聴覚情報に着目したマルチモーダルLLMの映像理解能力を評価するために,AVUT(Audio-centric video understanding benchmark)を提案する。
AVUTは、注意深く設計されたオーディオ中心のタスクスイートを導入し、ビデオ内のオーディオコンテンツとオーディオと視覚の両方のインタラクションの理解を徹底的にテストしている。
さらに,本研究では,動画を必要とせずに質問文のみから正しい回答を見つけることのできる,他のベンチマークに多く存在するテキストショートカット問題を指摘する。
AVUTは、応答置換に基づくフィルタリング機構を提案することでこの問題に対処する。
多様なオープンソースおよびプロプライエタリなマルチモーダルLCMに対して徹底的な評価を行い、続いてオーディオ視覚LCMにおける欠陥の分析を行う。
デモとデータはhttps://github.com/lark-png/AVUT.comで公開されている。
関連論文リスト
- Kimi-Audio Technical Report [67.69331679172303]
Kimi-Audioは、オーディオ理解、生成、会話に優れたオープンソースのオーディオ基礎モデルである。
モデルアーキテクチャ、データキュレーション、トレーニングレシピ、推論デプロイメント、評価を含む、Kim-Audioの構築プラクティスについて詳述する。
論文 参考訳(メタデータ) (2025-04-25T15:31:46Z) - Aligned Better, Listen Better for Audio-Visual Large Language Models [21.525317311280205]
ビデオには本質的に音声が含まれており、視覚に情報を提供する。
ビデオ大言語モデル(ビデオ-LLM)は多くのオーディオ中心の設定に遭遇する。
既存のモデルは、音声情報を利用するのに欠陥があり、理解と幻覚が弱い。
論文 参考訳(メタデータ) (2025-04-02T18:47:09Z) - AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文 参考訳(メタデータ) (2024-11-25T09:22:13Z) - Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Audio-Visual LLM for Video Understanding [25.963166809113005]
本稿では,視覚的および聴覚的入力を総合的ビデオ理解に用いたマルチモーダル大言語モデルであるAudio-Visual LLMを提案する。
GPT-4から派生した高品質のビデオ命令データセットを提案する。
実験により、オーディオ・ビジュアルのLLMは、様々なビデオ理解タスクで強いゼロショット結果が得られることが実証された。
論文 参考訳(メタデータ) (2023-12-11T02:50:46Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。