論文の概要: Does Audio Matter for Modern Video-LLMs and Their Benchmarks?
- arxiv url: http://arxiv.org/abs/2509.17901v1
- Date: Mon, 22 Sep 2025 15:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.465386
- Title: Does Audio Matter for Modern Video-LLMs and Their Benchmarks?
- Title(参考訳): 最新のビデオLLMとベンチマークにオーディオは重要か?
- Authors: Geewook Kim, Minjoon Seo,
- Abstract要約: Video-LLMとそれを認証するベンチマークについて、実際にどのくらいのオーディオが重要か尋ねる。
広く使われているスイートを分析し、多くのアイテムが単一のフレームから解決可能であることを観察する。
最近のビデオベンチマークではオーディオの利得は最小限だが、キュレートされたオーディオに敏感なサブセットでは決定的だ。
- 参考スコア(独自算出の注目度): 39.02448300415289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern multimodal large language models often claim "video understanding," yet most evaluations use muted videos or simply discard audio. We ask a direct question: how much does audio actually matter for contemporary Video-LLMs and the benchmarks that certify them? We audit widely used suites and observe that many items are even solvable from a single frame, rendering audio largely redundant. Building on LLaVA-OneVision architecture, we attach a speech/audio encoder (e.g., Whisper) and analyze when audio helps, while addressing audio token explosion with a lightweight Mamba-based state-space token compressor. We find that audio yields minimal gains on recent video benchmarks but is decisive on curated, audio-sensitive subsets. To enable faithful evaluation, we release AVQA-Hard and Music-AVQA-Hard, our model, and code. Our findings surface a growing gap between current academic practice and real-world expectations, and provide practical tools for scalable audio-visual Video-LLMs. We will fully open-source our work at https://github.com/naver-ai/LLaVA-AV-SSM.
- Abstract(参考訳): 現代のマルチモーダルな大言語モデルは「ビデオ理解」をしばしば主張するが、ほとんどの評価ではミュートビデオや単に音声を破棄する。
オーディオは、現在のビデオ-LLMや、それを認証するベンチマークにとって、実際どれくらい重要か?
私たちは広く使われているスイートを監査し、多くのアイテムが単一のフレームから解決可能であることを観察し、ほとんど冗長なオーディオをレンダリングします。
LLaVA-OneVisionアーキテクチャに基づいて、音声/オーディオエンコーダ(例えばWhisper)をアタッチして、音声トークンの爆発を軽量なMambaベースのステートスペーストークン圧縮機で処理する。
最近のビデオベンチマークではオーディオの利得は最小限だが、キュレートされたオーディオに敏感なサブセットでは決定的だ。
忠実な評価を可能にするため、我々はAVQA-HardとMusic-AVQA-Hardをリリースした。
本研究は,現状の学術的実践と現実の期待とのギャップを増大させ,スケーラブルなオーディオ・ヴィジュアル・ビデオ・LLMのための実用的なツールを提供する。
私たちは、https://github.com/naver-ai/LLaVA-AV-SSMで、私たちの仕事を完全にオープンソースにします。
関連論文リスト
- Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [33.114796739109075]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - Audio-centric Video Understanding Benchmark without Text Shortcut [49.01648001666229]
音声視覚大言語モデル(LLM)の映像理解タスクにおける補助的モダリティとして機能することも多い。
本稿では,マルチモーダルLLMの映像理解能力を評価するために,AVUT(Audio-centric video understanding benchmark)を提案する。
論文 参考訳(メタデータ) (2025-03-25T16:28:24Z) - Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities [72.91296768332163]
本稿では,Audio Flamingo 2 (AF2),Audio-Language Model,LongAudioを紹介した。
AF2は、20以上のベンチマークで大規模なオープンソースおよびプロプライエタリモデルを上回る3Bパラメータの小さな言語モデルで、最先端のパフォーマンスを実現している。
音声理解を長い音声セグメント(30秒から5分)に拡張し、長い音声キャプションと質問応答タスクに基づいてALMをトレーニングするための大規模で斬新なデータセットであるLongAudioを提案する。
論文 参考訳(メタデータ) (2025-03-06T00:10:26Z) - SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文 参考訳(メタデータ) (2024-11-25T09:22:13Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。