論文の概要: FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19536v2
- Date: Thu, 05 Jun 2025 09:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 16:56:39.512245
- Title: FlowCut: Rethinking Redundancy via Information Flow for Efficient Vision-Language Models
- Title(参考訳): FlowCut: 効率的なビジョンランゲージモデルのための情報フローによる冗長性の再考
- Authors: Jintao Tong, Wenwei Jin, Pengda Qin, Anqi Li, Yixiong Zou, Yuhong Li, Yuhua Li, Ruixuan Li,
- Abstract要約: 大規模視覚言語モデル(LVLM)はマルチモーダル理解において優れているが、冗長な視覚トークンによる計算コストが高い。
既存のプルーニング法は、通常は1層の注意スコアをランク付けや冗長な視覚トークンに頼っている。
本稿では,情報フロー対応プルーニングフレームワークであるFlowCutを提案する。
- 参考スコア(独自算出の注目度): 16.818798800714177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (LVLMs) excel at multimodal understanding but suffer from high computational costs due to redundant vision tokens. Existing pruning methods typically rely on single-layer attention scores to rank and prune redundant visual tokens to solve this inefficiency. However, as the interaction between tokens and layers is complicated, this raises a basic question: Is such a simple single-layer criterion sufficient to identify redundancy? To answer this question, we rethink the emergence of redundant visual tokens from a fundamental perspective: information flow, which models the interaction between tokens and layers by capturing how information moves between tokens across layers. We find (1) the CLS token acts as an information relay, which can simplify the complicated flow analysis; (2) the redundancy emerges progressively and dynamically via layer-wise attention concentration; and (3) relying solely on attention scores from single layers can lead to contradictory redundancy identification. Based on this, we propose FlowCut, an information-flow-aware pruning framework, mitigating the insufficiency of the current criterion for identifying redundant tokens and better aligning with the model's inherent behaviors. Extensive experiments show that FlowCut achieves superior results, outperforming SoTA by 1.6% on LLaVA-1.5-7B with 88.9% token reduction, and by 4.3% on LLaVA-NeXT-7B with 94.4% reduction, delivering 3.2x speed-up in the prefilling stage. Our code is available at https://github.com/TungChintao/FlowCut
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)はマルチモーダル理解において優れているが、冗長な視覚トークンによる計算コストが高い。
既存のプルーニング法は通常、この非効率性を解決するために、ランク付けや冗長な視覚トークンのプルーンに単層アテンションスコアを頼りにしている。
しかし、トークンとレイヤ間の相互作用が複雑であるので、基本的な疑問が持ち上がる。
この質問に答えるために、私たちは基本的な視点から、冗長な視覚的トークンの出現を再考する:情報フロー。
その結果, 1) CLSトークンは情報リレーとして機能し, 複雑なフロー解析を簡素化し, 2) 冗長性は層単位の注意集中によって徐々に動的に出現し, (3) 単一層からの注意スコアのみに依存することにより, 矛盾した冗長性識別につながることがわかった。
そこで本研究では,冗長なトークンの識別とモデル固有の振る舞いの整合性を改善するため,現在の基準が満たされていないことを緩和する情報フロー対応プルーニングフレームワークであるFlowCutを提案する。
FlowCutは、88.9%のトークン還元でLLaVA-1.5-7Bで1.6%、94.4%の還元でLLaVA-NeXT-7Bで4.3%、プリフィル段階で3.2倍のスピードアップを実現している。
私たちのコードはhttps://github.com/TungChintao/FlowCutで利用可能です。
関連論文リスト
- ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - AnchorFormer: Differentiable Anchor Attention for Efficient Vision Transformer [13.945118817568366]
本稿では,アンカートークンを用いたアンカーベースの効率的な視覚変換器(AnchorFormer)を提案する。
神経層内のニューロンでアンカーを表現することにより、これらの分布を微分可能とし、大域的自己注意を近似することができる。
実験では、AnchorFormerの有効性を示し、ImageNet分類における9.0%の精度または46.7%のFLOPs削減を実現した。
論文 参考訳(メタデータ) (2025-05-22T09:44:44Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Knowing When to Stop: Dynamic Context Cutoff for Large Language Models [5.800837821046764]
大規模言語モデル(LLM)は、クエリに応答するために必要な情報がコンテキスト内にローカライズされる場合、入力コンテキスト全体を無差別に処理する。
タスク関連情報を取得する際に, LLM が自己決定処理を行えるようなヒューマンインスピレーション付き手法である動的コンテキストカットオフを提案する。
論文 参考訳(メタデータ) (2025-02-03T03:38:29Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Core Context Aware Attention for Long Context Language Modeling [50.774702091154204]
本稿では,CCA(Core Context Aware)アテンションを効果的に長距離コンテキストモデリングのためのプラグイン・アンド・プレイとして提案する。
CCA-Attentionは、計算効率と長文モデリング能力の観点から、最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Filter, Correlate, Compress: Training-Free Token Reduction for MLLM Acceleration [42.60904284683844]
トークンの削減を3つの段階に分解するフレームワークを提案する。冗長トークンのフィルタリング,破棄された情報を保存トークンに関連付けること,冗長性を最小化するためにトークンを圧縮することである。
FiCoCo は LLaVA-1.5-7B/LLaVA-NeXT-7B で最大 5.7x/14.7x FLOPs の 92.8%/93.6% の性能保持を実現している。
論文 参考訳(メタデータ) (2024-11-26T18:53:51Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。