論文の概要: IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
- arxiv url: http://arxiv.org/abs/2602.03060v1
- Date: Tue, 03 Feb 2026 03:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.226762
- Title: IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning
- Title(参考訳): IVC-Prune:視覚トーケンプルーニングのためのLVLMにおける不必要な視覚座標の探索
- Authors: Zhichao Sun, Yidong Ma, Gang Liu, Yibo Chen, Xu Tang, Yao Hu, Yongchao Xu,
- Abstract要約: LVLM(Large Vision-Language Models)は、複数のタスクにまたがる優れたパフォーマンスを実現する。
しかし、重要な課題は、高解像度の視覚入力を処理する際に、その禁止的な推論コストである。
IVCトークンと意味論的に関連するフォアグラウンドトークンの両方を保持するトレーニングフリーで、プロンプト対応のプルーニング戦略である textbfIVC-Prune を提案する。
- 参考スコア(独自算出の注目度): 27.75049214892312
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Vision-Language Models (LVLMs) achieve impressive performance across multiple tasks. A significant challenge, however, is their prohibitive inference cost when processing high-resolution visual inputs. While visual token pruning has emerged as a promising solution, existing methods that primarily focus on semantic relevance often discard tokens that are crucial for spatial reasoning. We address this gap through a novel insight into \emph{how LVLMs process spatial reasoning}. Specifically, we reveal that LVLMs implicitly establish visual coordinate systems through Rotary Position Embeddings (RoPE), where specific token positions serve as \textbf{implicit visual coordinates} (IVC tokens) that are essential for spatial reasoning. Based on this insight, we propose \textbf{IVC-Prune}, a training-free, prompt-aware pruning strategy that retains both IVC tokens and semantically relevant foreground tokens. IVC tokens are identified by theoretically analyzing the mathematical properties of RoPE, targeting positions at which its rotation matrices approximate identity matrix or the $90^\circ$ rotation matrix. Foreground tokens are identified through a robust two-stage process: semantic seed discovery followed by contextual refinement via value-vector similarity. Extensive evaluations across four representative LVLMs and twenty diverse benchmarks show that IVC-Prune reduces visual tokens by approximately 50\% while maintaining $\geq$ 99\% of the original performance and even achieving improvements on several benchmarks. Source codes are available at https://github.com/FireRedTeam/IVC-Prune.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、複数のタスクにまたがる優れたパフォーマンスを実現する。
しかし、重要な課題は、高解像度の視覚入力を処理する際に、その禁止的な推論コストである。
視覚的トークンプルーニングは有望な解決策として現れてきたが、意味的関連性に重点を置く既存の手法は、空間的推論に不可欠なトークンを捨てることが多い。
我々は,このギャップを,空間的推論における「emph{how LVLMs process space reasoning}」という新たな洞察を通じて解決する。
具体的には,LVLMがロタリー位置埋め込み(Rotary Position Embeddings, RoPE)を通じて暗黙的に視覚座標系を確立することを明らかにする。
この知見に基づいて, IVCトークンと意味論的に関連する前景トークンの両方を保持するトレーニングフリーで, プロンプト対応のプルーニング戦略である \textbf{IVC-Prune} を提案する。
IVCトークンは、RoPEの数学的性質を理論的に解析し、回転行列が近似ID行列または90^\circ$回転行列をターゲットとする。
前景トークンはロバストな2段階のプロセスによって識別される。
4つの代表的なLVLMと20の多様なベンチマークによる大規模な評価の結果、ITV-Pruneはオリジナルのパフォーマンスの99セントを維持しながら、視覚トークンを約50セント削減し、いくつかのベンチマークの改善さえ達成している。
ソースコードはhttps://github.com/FireRedTeam/IVC-Prune.comで入手できる。
関連論文リスト
- What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models [9.530137749236617]
マルチモーダル大言語モデル(MLLM)は、言語モデルの埋め込み空間に視覚トークンを投影する。
本稿では,新しい探索ツールである $textLenEmbeds$ を特徴とする2次元解析フレームワークについて紹介する。
視覚トークンは一貫してシンク、デッド、生きたカテゴリに分けられる。
論文 参考訳(メタデータ) (2026-02-28T07:13:36Z) - Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning [78.75062483648243]
視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-05T16:02:48Z) - Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - PoRe: Position-Reweighted Visual Token Pruning for Vision Language Models [12.189644988996022]
本稿では,視覚的トークンプルーニングにおける遅延バイアスを軽減するための,極めて単純かつ効果的なアプローチを提案する。
画像内の空間的位置に応じて視覚的トークンの注意点を調節する簡単なリウェイト機構を提案する。
提案手法は,既存のビジュアルトークンプルーニングフレームワークにシームレスに組み込むことができるプラグイン・アンド・プレイソリューションである。
論文 参考訳(メタデータ) (2025-08-25T08:56:32Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。