論文の概要: Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models
- arxiv url: http://arxiv.org/abs/2509.01167v1
- Date: Mon, 01 Sep 2025 06:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.561723
- Title: Do Video Language Models Really Know Where to Look? Diagnosing Attention Failures in Video Language Models
- Title(参考訳): ビデオ言語モデルは、どこを見るべきかを本当に知っているか? : ビデオ言語モデルにおける注意欠陥の診断
- Authors: Hyunjong Ok, Jaeho Lee,
- Abstract要約: マルチモーダル大言語モデル (MLLM) は通常、視覚言語エンコーダによってガイドされるサンプリング手法に依存している。
一般的な視覚エンコーダは、ビデオの中でMLLMがどこに見えるべきかを識別する能力に限界がある。
以上の結果から,より優れた識別技術の開発は,ビデオMLLMの効率化に必要である可能性が示唆された。
- 参考スコア(独自算出の注目度): 13.389832365304263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) have led to much progress in video understanding tasks. To avoid the heavy computational cost of processing all frames, these models typically rely on keyframe sampling methods guided by vision-language encoders (\textit{e.g.,} SigLIP). However, it remains unclear whether such encoders can truly identify the most informative frames. In this work, we provide several empirical pieces of evidence revealing that popular vision encoders critically suffer from their limited capability to identify where the MLLM should look inside the video to handle the given textual query appropriately. Our findings suggest that the development of better keyframe identification techniques may be necessary for efficient video MLLMs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、ビデオ理解タスクの進歩につながっている。
全てのフレームを処理する計算コストを回避するため、これらのモデルは通常、視覚言語エンコーダ (\textit{e g ,} SigLIP) でガイドされるキーフレームサンプリング手法に依存する。
しかし、そのようなエンコーダが真に最も情報性の高いフレームを識別できるかどうかは不明である。
本研究では,一般的な視覚エンコーダがビデオ内のMLLMの視界を適切に把握し,テキストクエリを適切に処理する能力に限界があることを示す,実証的な証拠をいくつか提示する。
この結果から,より優れた鍵フレーム識別技術の開発は,効率的なビデオMLLMの開発に必要である可能性が示唆された。
関連論文リスト
- Video Summarization with Large Language Models [41.51242348081083]
本稿では,近年のLarge Language Models (LLM) の機能を活用したビデオ要約フレームワークを提案する。
LLM-based Video Summarization (LLMVS) と呼ばれる我々の手法は、ビデオフレームをMulti-Modal Large Language Model (MLLM) を用いて一連のキャプションに変換する。
実験の結果,提案手法は標準ベンチマークにおける既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-15T13:56:14Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning [15.877954360180468]
MLLM(Multimodal Large Language Models)のトレーニングは、リソース集約型であり、様々なトレーニング制限によって制限される。
本稿では,MVCD(Modular-based Visual Contrastive Decoding)フレームワークを提案する。
我々のフレームワークは、LLMのICL(In-Context Learning)機能と、提案した視覚コントラスト・サンプル・デコーディング(CED)を活用している。
その結果、モデル精度が一貫した改善を示し、復号化戦略における有効成分をうまく説明できた。
論文 参考訳(メタデータ) (2025-02-17T12:47:00Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。