論文の概要: CROP: Contextual Region-Oriented Visual Token Pruning
- arxiv url: http://arxiv.org/abs/2505.21233v1
- Date: Tue, 27 May 2025 14:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.71173
- Title: CROP: Contextual Region-Oriented Visual Token Pruning
- Title(参考訳): CROP: コンテキスト領域指向のビジュアルトークンプルーニング
- Authors: Jiawei Guo, Feifei Zhai, Pu Jian, Qianrun Wei, Yu Zhou,
- Abstract要約: Contextual Region-Oriented Visual Token Pruning (CROP)は、ビジュアルトークンを圧縮する新しいフレームワークである。
プレLLM圧縮(PLC)と、異なる画像領域を異なる比率で適応的に圧縮する(2)インナーLLMプルーニング(ILP)は、識別されたコンテキスト領域に導かれる初期層内でトークンをプルーする訓練不要な方法である。
- 参考スコア(独自算出の注目度): 3.2448297592981823
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current VLM-based VQA methods often process entire images, leading to excessive visual tokens that include redundant information irrelevant to the posed question. This abundance of unnecessary image details creates numerous visual tokens, drastically increasing memory and computational requirements in VLMs. To address this, we propose Contextual Region-Oriented Visual Token Pruning (CROP), a novel framework to compress visual tokens through a two-step process: Localization and Pruning. Specifically, CROP first employs an efficient model to identify the contextual region relevant to the input query. Subsequently, two distinct strategies are introduced for pruning: (1) Pre-LLM Compression (PLC), which adaptively compresses different image regions with varying ratios, and (2) Inner-LLM Pruning (ILP), a training-free method that prunes tokens within early LLM layers guided by the identified contextual region. Extensive experiments on a wide range of VQA tasks demonstrate that CROP significantly outperforms existing visual token pruning methods and achieves state-of-the-art performance. Our code and datasets will be made available.
- Abstract(参考訳): 現行のVLMベースのVQA法は画像全体を処理することが多く、提案された問題とは無関係に冗長な情報を含む過度な視覚トークンをもたらす。
この不必要な画像の詳細が多すぎると、多くの視覚トークンが生成され、VLMのメモリと計算要求が大幅に増大する。
そこで我々は,2段階のプロセスで視覚トークンを圧縮する新しいフレームワークCROP(Contextual Region-Oriented Visual Token Pruning)を提案する。
具体的には、CROPは入力クエリに関連するコンテキスト領域を特定するために、まず効率的なモデルを使用する。
次に,(1)異なる画像領域を異なる比率で適応的に圧縮するプレLLM圧縮(PLC)と,(2)識別された文脈領域によって導かれる初期LLM層内でトークンをプルーネするトレーニング不要なインナーLLMプルーニング(ILP)の2つの異なる方法を紹介した。
広範囲なVQAタスクに対する大規模な実験により、CROPは既存の視覚トークンのプルーニング手法を著しく上回り、最先端のパフォーマンスを実現していることが示された。
コードとデータセットが利用可能になります。
関連論文リスト
- LVLM_CSP: Accelerating Large Vision Language Models via Clustering, Scattering, and Pruning for Reasoning Segmentation [10.614327633823462]
大規模視覚言語モデル(LVLM)は、推論セグメンテーションタスクの実行において視覚基盤モデルを導くために広く採用されている。
本研究では,LVLMに基づく推論セグメンテーションタスクに特化して設計された,新しい学習自由な視覚トークンプルーニング手法であるLVLM_CSPを提案する。
論文 参考訳(メタデータ) (2025-04-15T04:27:15Z) - InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。
20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文 参考訳(メタデータ) (2025-03-27T09:31:35Z) - When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。