論文の概要: AdaTP: Attention-Debiased Token Pruning for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2505.20100v1
- Date: Mon, 26 May 2025 15:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.54693
- Title: AdaTP: Attention-Debiased Token Pruning for Video Large Language Models
- Title(参考訳): AdaTP: ビデオ大言語モデルのための注意欠陥トケンプルーニング
- Authors: Fengyuan Sun, Leqi Shen, Hui Chen, Sicheng Zhao, Jungong Han, Guiguang Ding,
- Abstract要約: ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は, 映像理解タスクにおいて顕著な成果を上げている。
それらは、複数のビデオフレームから生成される大量の視覚トークンのために、計算上のオーバーヘッドに悩まされることが多い。
AdaTPは2つの専用デバイアスモジュールをパイプラインに統合し、グローバルなアテンションバイアスとローカルなアテンションバイアスをターゲットとする。
- 参考スコア(独自算出の注目度): 73.70241811066907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Large Language Models (Video LLMs) have achieved remarkable results in video understanding tasks. However, they often suffer from heavy computational overhead due to the large number of visual tokens generated from multiple video frames. Existing visual token compression methods often rely on attention scores from language models as guidance. However, these scores exhibit inherent biases: global bias reflects a tendency to focus on the two ends of the visual token sequence, while local bias leads to an over-concentration on the same spatial positions across different frames. To address the issue of attention bias, we propose $\textbf{A}$ttention-$\textbf{D}$ebi$\textbf{a}$sed $\textbf{T}$oken $\textbf{P}$runing for Video Large Language Models ($\textbf{AdaTP}$), a novel token pruning pipeline for Video LLMs. AdaTP integrates two dedicated debiasing modules into the pipeline, targeting global attention bias and local attention bias, respectively. Without the need for additional training, our method significantly reduces the computational overhead of Video LLMs while retaining the performance of vanilla models. Extensive evaluation shows that AdaTP achieves state-of-the-art performance in various commonly used video understanding benchmarks. In particular, on LLaVA-OneVision-7B, AdaTP maintains performance without degradation while using only up to $27.3\%$ FLOPs compared to the vanilla model. Our code will be released soon.
- Abstract(参考訳): ビデオ大言語モデル (Video Large Language Models, ビデオLLM) は, 映像理解タスクにおいて顕著な成果を上げている。
しかし、複数のビデオフレームから大量の視覚トークンが生成されるため、計算上のオーバーヘッドに悩まされることが多い。
既存のビジュアルトークン圧縮手法は、しばしばガイダンスとして言語モデルからの注意点に依存する。
しかし、これらのスコアは固有のバイアスを示しており、グローバルバイアスは視覚トークンシーケンスの2つの端に焦点を当てる傾向を反映し、一方、局所バイアスは異なるフレームにわたって同じ空間位置において過度に集中する。
注意バイアスの問題に対処するため、ビデオLLM用の新しいトークンプルーニングパイプラインである$\textbf{A}$ttention-$\textbf{D}$ebi$\textbf{a}$sed $\textbf{T}$oken $\textbf{P}$runing for Video Large Language Models$\textbf{AdaTP}$を提案する。
AdaTPは2つの専用デバイアスモジュールをパイプラインに統合し、それぞれがグローバルアテンションバイアスとローカルアテンションバイアスをターゲットとしている。
追加トレーニングを必要とせず,バニラモデルの性能を維持しながら,ビデオLLMの計算オーバーヘッドを大幅に低減する。
AdaTPは、様々な一般的なビデオ理解ベンチマークで最先端のパフォーマンスを達成している。
特にLLaVA-OneVision-7Bでは、AdaTPはバニラモデルと比較して最大27.3\%のFLOPしか使用せず、劣化することなく性能を維持している。
私たちのコードはまもなくリリースされるでしょう。
関連論文リスト
- REEF: Relevance-Aware and Efficient LLM Adapter for Video Understanding [2.309018557701645]
最近の方法では、ビデオレベルの理解のために、時間外ビデオを扱うためにメモリバンクを圧縮することが多い。
そこで我々は,視覚トークンを用いて映像を大規模に圧縮するビデオの設計を行った。
論文 参考訳(メタデータ) (2025-04-07T20:36:34Z) - FastVID: Dynamic Density Pruning for Fast Video Large Language Models [38.267065642416554]
我々は,FastVIDと呼ばれる高速ビデオLLMの密度決定法を提案する。
FastVIDは、ビデオを時間的に順序付けられたセグメントに分割して、時間構造を保存する。
本手法は時間的・視覚的整合性を維持しながら計算オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2025-03-14T08:33:08Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - Rethinking Homogeneity of Vision and Text Tokens in Large Vision-and-Language Models [29.611769371733672]
本稿では,視覚とテキストの埋め込みを別々に処理する新しい手法であるDe Attention (D-Attn)を提案する。
D-Attn は視覚と視覚の自己注意を対角化し、計算を $mathcalO(|V|2)$から $mathcalO(|V|)$ for $|V|$ に還元する。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。