論文の概要: LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMs
- arxiv url: http://arxiv.org/abs/2503.11205v1
- Date: Fri, 14 Mar 2025 08:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:16.179705
- Title: LLaVA-MLB: Mitigating and Leveraging Attention Bias for Training-Free Video LLMs
- Title(参考訳): LLaVA-MLB:無トレーニングビデオLLMにおける注意バイアスの緩和と緩和
- Authors: Leqi Shen, Tao He, Guoqiang Gong, Fan Yang, Yifeng Zhang, Pengzhang Liu, Sicheng Zhao, Guiguang Ding,
- Abstract要約: トレーニングフリー言語モデル(LLM)は、事前訓練されたイメージLLMを活用して、さらなるトレーニングを必要とせずにコンテンツを処理する。
このようなアプローチにおける鍵となる課題は、画像LLMのトークン制限によって制約される重要な視覚的・時間的情報を維持することの難しさである。
画像LLMアテンションスコアに基づいて,クエリ関連トークンを選択するための2段階の手法を提案する。
- 参考スコア(独自算出の注目度): 38.68677995229983
- License:
- Abstract: Training-free video large language models (LLMs) leverage pretrained Image LLMs to process video content without the need for further training. A key challenge in such approaches is the difficulty of retaining essential visual and temporal information, constrained by the token limits in Image LLMs. To address this, we propose a two-stage method for selecting query-relevant tokens based on the LLM attention scores: compressing the video sequence and then expanding the sequence. However, during the compression stage, Image LLMs often exhibit a positional attention bias in video sequences, where attention is overly concentrated on later frames, causing early-frame information to be underutilized. To alleviate this attention bias during sequence compression, we propose Gridded Attention Pooling for preserving spatiotemporal structure. Additionally, we introduce Visual Summarization Tail to effectively utilize this bias, facilitating overall video understanding during sequence expansion. In this way, our method effectively Mitigates and Leverages attention Bias (LLaVA-MLB), enabling the frozen Image LLM for detailed video understanding. Experiments on several benchmarks demonstrate that our approach outperforms state-of-the-art methods, achieving superior performance in both efficiency and accuracy. Our code will be released.
- Abstract(参考訳): トレーニング不要なビデオ大言語モデル(LLM)は、事前訓練された画像LLMを活用して、さらなるトレーニングを必要とせずにビデオコンテンツを処理する。
このようなアプローチにおける重要な課題は、画像LLMのトークン制限によって制約された、重要な視覚的および時間的情報を維持することの難しさである。
そこで本研究では,LLMアテンションスコアに基づく2段階のクエリ関連トークン選択手法を提案する。
しかしながら、圧縮段階では、画像LLMは、後続のフレームに過度に注意が集中しているビデオシーケンスにおいて、位置的注意バイアスを呈することが多く、初期フレーム情報は未利用である。
シーケンス圧縮時の注意バイアスを軽減するため,時空間構造を保存するためのグリッド型注意プーリングを提案する。
さらに、このバイアスを効果的に活用し、シーケンス展開中のビデオ全体の理解を容易にするために、ビジュアル要約タイルを導入する。
このようにして,本手法はBias (LLaVA-MLB) を効果的に緩和し,凍結画像LLMによる詳細な映像理解を可能にする。
いくつかのベンチマーク実験により、我々の手法は最先端の手法よりも優れており、効率と精度の両方で優れた性能を実現していることが示された。
私たちのコードは解放されます。
関連論文リスト
- Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - LLMs Meet Long Video: Advancing Long Video Question Answering with An Interactive Visual Adapter in LLMs [22.696090318037925]
長いビデオ理解は、マルチメディアと人工知能の交差において、重要かつ進行中の課題である。
大型言語モデル(LLM)における対話型ビジュアルアダプタ(IVA)を提案する。
論文 参考訳(メタデータ) (2024-02-21T05:56:52Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VTimeLLM: Empower LLM to Grasp Video Moments [43.51980030572101]
大規模言語モデル(LLM)は、顕著なテキスト理解能力を示している。
ビデオLLMはビデオ全体の粗い記述しか提供できない。
微細な映像モーメント理解のためのビデオLLMであるVTimeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-30T10:49:56Z) - Time Does Tell: Self-Supervised Time-Tuning of Dense Image
Representations [79.87044240860466]
本稿では,高密度自己教師あり学習における時間的一貫性を取り入れた新しい手法を提案する。
タイムチューニング(time-tuning)と呼ぶ我々のアプローチは、画像事前学習モデルから始まり、ラベルなしビデオに新たな自己教師付き時間的アライメントクラスタリングロスを伴って微調整を行う。
タイムチューニングは、教師なしのセマンティックセマンティックセグメンテーションを8~10%改善し、画像にマッチさせる。
論文 参考訳(メタデータ) (2023-08-22T21:28:58Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。