論文の概要: ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models
- arxiv url: http://arxiv.org/abs/2602.00946v1
- Date: Sun, 01 Feb 2026 00:28:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.479201
- Title: ConsensusDrop: Fusing Visual and Cross-Modal Saliency for Efficient Vision Language Models
- Title(参考訳): ConsensusDrop:効率的な視覚言語モデルのための視覚的および横断的サリエンシの融合
- Authors: Dhruv Parikh, Haoyang Fan, Rajgopal Kannan, Viktor Prasanna,
- Abstract要約: 視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
いずれの信号も十分ではないことが示される: それらを融合することで、一意的な視覚トークン選択(ランキング)に比べて、一貫して性能が向上する。
textbfConsensusDropは、視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと整合させることにより、アンフコンセンサスランキングを導出する、トレーニング不要のフレームワークである。
- 参考スコア(独自算出の注目度): 4.273730624882391
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) are expensive because the LLM processes hundreds of largely redundant visual tokens. Existing token reduction methods typically exploit \textit{either} vision-encoder saliency (broad but query-agnostic) \textit{or} LLM cross-attention (query-aware but sparse and costly). We show that neither signal alone is sufficient: fusing them consistently improves performance compared to unimodal visual token selection (ranking). However, making such fusion practical is non-trivial: cross-modal saliency is usually only available \emph{inside} the LLM (too late for efficient pre-LLM pruning), and the two signals are inherently asymmetric, so naive fusion underutilizes their complementary strengths. We propose \textbf{ConsensusDrop}, a training-free framework that derives a \emph{consensus} ranking by reconciling vision encoder saliency with query-aware cross-attention, retaining the most informative tokens while compressing the remainder via encoder-guided token merging. Across LLaVA-1.5/NeXT, Video-LLaVA, and other open-source VLMs, ConsensusDrop consistently outperforms prior pruning methods under identical token budgets and delivers a stronger accuracy-efficiency Pareto frontier -- preserving near-baseline accuracy even at aggressive token reductions while reducing TTFT and KV cache footprint. Our code will be open-sourced.
- Abstract(参考訳): 視覚言語モデル(VLM)は、LLMが数百のほとんど冗長な視覚トークンを処理するため、高価である。
既存のトークン削減手法では、通常、 \textit{either} の視覚エンコーダサリエンシ(ブロードだがクエリ非依存) \textit{or} LLM のクロスアテンション(クエリ対応だがスパースでコストがかかる)を利用する。
両信号だけでは十分ではないことを示す: それらを融合させることは、一意的な視覚トークン選択(ランキング)に比べて、パフォーマンスを継続的に改善する。
しかし、そのような融合を実用的にすることは非自明である: クロスモーダル・サリエンシは通常、LSM(効率のよいLLMプルーニングには遅すぎる)のemph{inside}しか利用できず、2つの信号は本質的に非対称であるため、ナイーブ・フュージョンは相補的な強度を弱めている。
我々は,視覚エンコーダのサリエンシをクエリ対応のクロスアテンションと照合し,最も情報性の高いトークンを保持しながら,残りのトークンをエンコーダ誘導のトークンマージによって圧縮することにより,トレーニング不要のフレームワークである‘textbf{ConsensusDrop} を提案する。
LLaVA-1.5/NeXT、Video-LLaVA、およびその他のオープンソースVLM全体で、ConsensusDropは、同じトークン予算の下で事前プルーニングメソッドを一貫して上回り、TTFTおよびKVキャッシュフットプリントを削減しつつ、アグレッシブトークン削減でもほぼベースライン精度を維持する、より高い精度のパレートフロンティアを提供する。
私たちのコードはオープンソースになります。
関連論文リスト
- FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。
本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。
我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-10-18T10:22:13Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VQToken: Neural Discrete Token Representation Learning for Extreme Token Reduction in Video Large Language Models [35.38573641029626]
最小限の離散トークンを用いてビデオ全体を表現することを目的としたExtreme Short Token Reductionという新しいタスクを紹介した。
Extreme Short Token Reductionタスクでは、私たちのVQTokenはシーケンスをオリジナルの長さのわずか0.07パーセントまで圧縮し、NextQA-MCベンチマークでは0.6%の精度しか達成していません。
論文 参考訳(メタデータ) (2025-03-21T09:46:31Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。
$textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-12-28T10:17:29Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。