論文の概要: Object-Centric Vision Token Pruning for Vision Language Models
- arxiv url: http://arxiv.org/abs/2511.20439v1
- Date: Tue, 25 Nov 2025 16:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.538801
- Title: Object-Centric Vision Token Pruning for Vision Language Models
- Title(参考訳): 視覚言語モデルのためのオブジェクト中心視覚トーンプルーニング
- Authors: Guangyuan Li, Rongzhen Zhao, Jinhong Deng, Yanbo Wang, Joni Pajarinen,
- Abstract要約: 高VLM推論効率のための冗長な視覚トークンの抽出が継続的に研究されている。
提案するOC-VTPは,高効率かつ高精度なVLM推論のための,最も代表的な視覚トークンを選択するための,直接かつ保証されたアプローチである。
- 参考スコア(独自算出の注目度): 30.560372693573303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Vision Language Models (VLMs), vision tokens are quantity-heavy yet information-dispersed compared with language tokens, thus consume too much unnecessary computation. Pruning redundant vision tokens for high VLM inference efficiency has been continuously studied but all existing methods resort to indirect and non-guaranteed ways. We propose OC-VTP, a direct and guaranteed approach to select the most representative vision tokens for high-efficiency yet accuracy-preserving VLM inference. Our OC-VTP requires merely light-weight pre-training of a small object-centric vision token pruner, which can then be inserted into existing VLMs, without fine-tuning of any models on any datasets. It is gauranteed that the most representative vision tokens are kept by minimizing the error in reconstructing the original unpruned tokens from the selected ones. Across any vision pruning ratios, i.e., inference efficiency, our OC-VTP consistently helps mainstream VLMs to preserve the highest inference accuracy. Our pruning also demonstrates interesting interpretability. Our codes are available at https://github.com/GarryLarry010131/OC-VTP.
- Abstract(参考訳): 視覚言語モデル(VLM)では、視覚トークンは量が多いが、言語トークンに比べて情報分散であり、過剰な計算を消費する。
高いVLM推論効率のために冗長な視覚トークンを抽出することは継続的に研究されてきたが、既存の手法はすべて間接的および非保証的な手法に頼っている。
提案するOC-VTPは,高効率かつ高精度なVLM推論のための,最も代表的な視覚トークンを選択するための,直接かつ保証されたアプローチである。
私たちのOC-VTPは、既存のVLMに挿入できる小さなオブジェクト中心の視覚トークンプルーナーの軽量事前トレーニングのみを必要とします。
最も代表的な視覚トークンは、選択されたトークンから元の未実行トークンを再構築する際のエラーを最小限にすることで保持される。
我々のOC-VTPは、あらゆる視覚プルーニング比、すなわち推論効率において、常に主流のVLMが最高の推論精度を維持するのに役立つ。
プルーニングは興味深い解釈可能性も示しています。
私たちのコードはhttps://github.com/GarryLarry010131/OC-VTPで利用可能です。
関連論文リスト
- ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - HiViS: Hiding Visual Tokens from the Drafter for Speculative Decoding in Vision-Language Models [23.98782884568504]
視覚言語モデル(HiViS)における投機的復号化のためのドナーからの視覚トークンの隠蔽を提案する。
HiViSは、視覚言語モデルにおける投機的復号化の非効率性を緩和する明示的単純入力分解フレームワークである。
提案手法は, プリフィルシーケンス長を目標VLM入力の0.7%-1.3%に圧縮する。
論文 参考訳(メタデータ) (2025-09-28T15:05:21Z) - MMTok: Multimodal Coverage Maximization for Efficient Inference of VLMs [38.6018459893585]
VLM(Vision-Language Models)は,視覚入力を視覚トークンに変換することで,言語指導による視覚内容の理解に優れた性能を示す。
視覚トークンの数を減らすために多くのアルゴリズムが提案されているが、視覚言語タスクの固有のマルチモーダル特性は無視されている。
本稿では,視覚トークンとテキストトークンの両方を活用して,カバレッジの基準によって情報的視覚トークンを選択することを提案する。
論文 参考訳(メタデータ) (2025-08-25T17:57:49Z) - CoViPAL: Layer-wise Contextualized Visual Token Pruning for Large Vision-Language Models [75.88232735646018]
LVLM(Large Vision-Language Models)は、画像やビデオから抽出されたテキストトークンとビジョントークンからなるマルチモーダル入力を処理する。
既存の手法は冗長な視覚トークンを創りだそうとしており、視覚表現のかなりの冗長性を明らかにしている。
我々は,LVLMで処理される前に冗長な視覚トークンを予測・削除するために,Plug-and-Play Pruning Module (PPM) を用いるレイヤワイズなコンテキスト対応型視覚トークンプルーニング手法であるCoViPALを提案する。
論文 参考訳(メタデータ) (2025-08-24T07:47:00Z) - VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。
しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。
視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2025-07-17T17:59:55Z) - Vision Remember: Alleviating Visual Forgetting in Efficient MLLM with Vision Feature Resample [30.263537686102016]
冗長な視覚トークンは膨大な量の計算メモリとリソースを消費する。
本研究では,LLMデコーダ層間に挿入され,視覚トークンが視覚機能を再記憶できるようにするビジョンリマインダを提案する。
再サンプリングの過程では、各視覚トークンは視覚特徴の局所的な領域にのみ参加する。
論文 参考訳(メタデータ) (2025-06-04T13:22:35Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。