論文の概要: CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models
- arxiv url: http://arxiv.org/abs/2605.13178v1
- Date: Wed, 13 May 2026 08:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.919423
- Title: CLIP Tricks You: Training-free Token Pruning for Efficient Pixel Grounding in Large VIsion-Language Models
- Title(参考訳): CLIPは、大規模視野モデルにおける効率的な画素グラウンドニングのためのトレーニング不要のトーケンプルーニングをトリックする
- Authors: Sangin Lee, Yukyung Choi,
- Abstract要約: LiteLVLMは、効率的なピクセルグラウンドディング推論のためのトレーニング不要でテキスト誘導型トークンプルーニング戦略である。
LiteLVLMは、さまざまなトークン予算において、既存のメソッドを5%以上上回ります。
- 参考スコア(独自算出の注目度): 1.3750624267664158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large vision-language models, visual tokens typically constitute the majority of input tokens, leading to substantial computational overhead. To address this, recent studies have explored pruning redundant or less informative visual tokens for image understanding tasks. However, these methods struggle with pixel grounding tasks, where token importance is highly contingent on the input text. Through an in-depth analysis of CLIP, we observe that visual tokens located within referent regions often exhibit low similarity to the textual representation. Motivated by this insight, we introduce LiteLVLM, a training-free, text-guided token pruning strategy for efficient pixel grounding inference. By reversing the ranking of CLIP's visual-text similarity, LiteLVLM effectively retains visual tokens covering the referent regions, while recovering context tokens to enable clear foreground-background separation. Extensive experiments demonstrate that LiteLVLM significantly outperforms existing methods by over 5% across diverse token budgets. Without any training or fine-tuning, LiteLVLM maintains 90\% of the original performance with a 22% speedup and a 2.3x memory reduction. Our code is available at https://github.com/sejong-rcv/LiteLVLM.
- Abstract(参考訳): 大きな視覚言語モデルでは、視覚トークンは典型的には入力トークンの大部分を占め、計算オーバーヘッドがかなり大きくなる。
これを解決するために、最近の研究では、画像理解タスクのための冗長な、あるいは、情報の少ない視覚トークンのプルーニングについて検討している。
しかし,これらの手法は,入力テキスト上でトークンの重要性が高い画素グラウンドタスクと競合する。
CLIPの詳細な分析により,参照領域内に位置する視覚トークンは,テキスト表現との類似度が低いことが確認された。
この知見に触発されたLiteLVLMは、効率的な画素グラウンド推定のためのトレーニング不要でテキスト誘導型トークンプルーニング戦略である。
CLIPのビジュアルテキスト類似性のランキングを逆転することで、LiteLVLMは参照領域をカバーするビジュアルトークンを効果的に保持し、コンテキストトークンを回復して、前景と背景の明確な分離を可能にする。
大規模な実験により、LiteLVLMは様々なトークン予算で既存の手法を5%以上上回る性能を示した。
トレーニングや微調整がなければ、LiteLVLMはオリジナルの性能の90%を22%のスピードアップと2.3倍のメモリ削減で維持する。
私たちのコードはhttps://github.com/sejong-rcv/LiteLVLMで公開されています。
関連論文リスト
- ResPrune: Text-Conditioned Subspace Reconstruction for Visual Token Pruning in Large Vision-Language Models [59.94664910790462]
ResPruneは、大規模な視覚言語モデルのためのトレーニング不要のビジュアルトークンプルーニングフレームワークである。
視覚トークンのコンパクトだが情報に富むサブセットを選択する。
これは、計算、メモリ消費、推論遅延を効果的に削減する。
論文 参考訳(メタデータ) (2026-03-22T07:44:45Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル (VLM) では、視覚トークンはテキストトークンと比較して情報量が多すぎるにもかかわらず、計算オーバーヘッドがかなり大きい。
本稿では、余分なパラメータや微調整コストを不要とするSparseVLMと呼ばれるテキスト誘導型トレーニングフリートークン最適化機構を提案する。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。