論文の概要: GridPrune: From "Where to Look" to "What to Select" in Visual Token Pruning for MLLMs
- arxiv url: http://arxiv.org/abs/2511.10081v1
- Date: Fri, 14 Nov 2025 01:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.686406
- Title: GridPrune: From "Where to Look" to "What to Select" in Visual Token Pruning for MLLMs
- Title(参考訳): GridPrune:MLLMのビジュアルトーケンプルーニングにおける"Where to Look"から"What to Select"へ
- Authors: Yuxiang Duan, Ao Li, Yingqin Li, Luyu Li, Pengwei Wang,
- Abstract要約: MLLM(Multimodal large language model)は、様々な視覚言語タスクにおいて顕著な機能を示す。
MLLMの効率を高めるための重要な技術として、視覚トークンプルーニングが登場している。
そこで本研究では,グローバルなTop-Kメカニズムを,GridPruneに置き換える手法を提案する。
- 参考スコア(独自算出の注目度): 2.9869094956508495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have shown remarkable capabilities in a wide range of vision-language tasks. However, the large number of visual tokens introduces significant computational overhead. To address this issue, visual token pruning has emerged as a key technique for enhancing the efficiency of MLLMs. In cognitive science, humans tend to first determine which regions of a scene to attend to ("where to look") before deciding which specific elements within those regions to process in detail ("what to select"). This two-stage strategy enables the visual system to efficiently allocate attention at a coarse spatial level before performing fine-grained selection. However, existing pruning methods primarily focus on directly optimizing "what to select", typically using attention scores or similarity metrics. They rarely consider "where to look", which has been shown to lead to inefficient spatial allocation, positional bias, and the retention of irrelevant or redundant tokens. In this paper, we propose GridPrune, a method that replaces the global Top-K mechanism with a "guide-globally, select-locally" zonal selection system. GridPrune splits the pruning process into two steps: first, it uses text-conditional guidance to dynamically allocate a token budget across spatial zones; and then, it performs local selection within each budgeted zone. Experimental results demonstrate that GridPrune achieves superior performance across various MLLM architectures. On LLaVA-NeXT-7B, GridPrune retains 96.98% of the full performance while using 11.1% of the tokens, outperforming the best-performing baseline by 2.34% at the same pruning rate.
- Abstract(参考訳): MLLM(Multimodal large language model)は、様々な視覚言語タスクにおいて顕著な機能を示す。
しかし、多数の視覚トークンは計算オーバーヘッドを著しく引き起こす。
この問題に対処するために、MLLMの効率を高めるための重要な技術として、視覚トークンプルーニングが登場した。
認知科学において、人間はまず、シーンのどの領域(「見る」場所)を判断し、その領域内のどの特定の要素を詳細に処理するかを決定する(「何を選択するか」)。
この2段階戦略により、視覚システムは、きめ細かい選択を行う前に、粗い空間レベルで効率的に注意を割り当てることができる。
しかし、既存のプルーニング手法は主に「選択するもの」を直接最適化することに焦点を当てており、注意点や類似度の測定値を用いるのが一般的である。
彼らは、非効率な空間割り当て、位置バイアス、無関係または冗長なトークンの保持につながる「見る場所」をめったに考えない。
本稿では,グローバルなTop-K機構を「ガイド・グラブリー・セレクト・ローカル」な地域選択システムに置き換えるGridPruneを提案する。
GridPruneは、プルーニングプロセスを2つのステップに分割する。まず、テキスト条件のガイダンスを使用して、空間領域にまたがるトークン予算を動的に割り当てます。
実験により、GridPruneは様々なMLLMアーキテクチャで優れた性能を発揮することが示された。
LLaVA-NeXT-7Bでは、GridPruneは11.1%のトークンを使用しながら96.98%のフルパフォーマンスを維持しており、同じプルーニングレートで最高のパフォーマンスのベースラインを2.34%上回っている。
関連論文リスト
- GeoToken: Hierarchical Geolocalization of Images via Next Token Prediction [23.767061975974134]
本研究では,ヒトが広い地域から特定の住所まで場所を狭める方法に着想を得た階層的シーケンス予測手法を提案する。
本手法では, ネストした多解像度グローバルグリッドであるS2セルを用いて, 視覚入力と過去の予測に基づいて, より微細なセルを逐次予測する。
我々は,Im2GPS3kとYFCC4kのデータセットを2つの異なるベースラインに対して評価した。
論文 参考訳(メタデータ) (2025-11-02T21:30:06Z) - SCOPE: Saliency-Coverage Oriented Token Pruning for Efficient Multimodel LLMs [59.415473779171315]
textbfSaliency-textbfCoverage textbfOriented token textbfPruning for textbfEfficient MLLMs。
論文 参考訳(メタデータ) (2025-10-28T09:29:37Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - HIVTP: A Training-Free Method to Improve VLMs Efficiency via Hierarchical Visual Token Pruning Using Middle-Layer-Based Importance Score [14.857585045577165]
HIVTPは、VLM(Vision-Language Models)推論効率を改善するためのトレーニング不要の手法である。
本稿では,グローバルかつ局所的に重要な視覚トークンを保持するための階層的視覚トークンプルーニング手法を提案する。
HIVTPは, LLaVA-v1.5-7BとLLaVA-Next-7BのTTFTを最大50.0%, 55.1%削減できることを示した。
論文 参考訳(メタデータ) (2025-09-28T05:53:39Z) - Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - CROP: Contextual Region-Oriented Visual Token Pruning [9.099029419132775]
Contextual Region-Oriented Visual Token Pruning (CROP)は、ビジュアルトークンを圧縮する新しいフレームワークである。
プレLLM圧縮(PLC)と、異なる画像領域を異なる比率で適応的に圧縮する(2)インナーLLMプルーニング(ILP)は、識別されたコンテキスト領域に導かれる初期層内でトークンをプルーする訓練不要な方法である。
論文 参考訳(メタデータ) (2025-05-27T14:16:52Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Dynamic Focus-aware Positional Queries for Semantic Segmentation [94.6834904076914]
本稿では,動的焦点認識型位置情報クエリと呼ばれるセマンティックセグメンテーションのための,シンプルで効果的なクエリ設計を提案する。
我々のフレームワークはSOTAの性能を達成し、ResNet-50、Swin-T、Swin-Bのバックボーンによる1.1%、1.9%、および1.1%の単一スケールmIoUでMask2formerより優れています。
論文 参考訳(メタデータ) (2022-04-04T05:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。