論文の概要: Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding
- arxiv url: http://arxiv.org/abs/2604.12358v2
- Date: Wed, 15 Apr 2026 17:43:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 16:10:33.692894
- Title: Why and When Visual Token Pruning Fails? A Study on Relevant Visual Information Shift in MLLMs Decoding
- Title(参考訳): ビジュアルトーケンプルーニングが失敗する理由と時期 : MLLMの復号化における関連視覚情報シフトに関する研究
- Authors: Jiwan Kim, Kibum Kim, Wonjoong Kim, Byung-Kwan Lee, Chanyoung Park,
- Abstract要約: Decoding-aware Token Pruning (DSTP)を提案する。
DSTPは複雑な推論タスクにおけるプルーニング手法の性能劣化を著しく軽減することを示した。
DSTPは様々な最先端アーキテクチャで有効性を示し、計算オーバーヘッドを最小限に抑え、その一般化性と効率性を強調している。
- 参考スコア(独自算出の注目度): 26.374232732533198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, visual token pruning has been studied to handle the vast number of visual tokens in Multimodal Large Language Models. However, we observe that while existing pruning methods perform reliably on simple visual understanding, they struggle to effectively generalize to complex visual reasoning tasks, a critical gap underexplored in previous studies. Through a systematic analysis, we identify Relevant Visual Information Shift (RVIS) during decoding as the primary failure driver. To address this, we propose Decoding-stage Shift-aware Token Pruning (DSTP), a training-free add-on framework that enables existing pruning methods to align visual tokens with shifting reasoning requirements during the decoding stage. Extensive experiments demonstrate that DSTP significantly mitigates performance degradation of pruning methods in complex reasoning tasks, while consistently yielding performance gains even across visual understanding benchmarks. Furthermore, DSTP demonstrates effectiveness across diverse state-of-the-art architectures, highlighting its generalizability and efficiency with minimal computational overhead.
- Abstract(参考訳): 近年,多モーダル大規模言語モデルにおける膨大な数の視覚トークンを扱うために,視覚トークンプルーニングが研究されている。
しかし、既存の刈り取り法は、単純な視覚的理解において確実に機能する一方で、複雑な視覚的推論タスクに効果的に一般化することに苦慮している。
系統解析により,デコード中の関連視覚情報シフト(RVIS)を一次故障ドライバとして同定する。
これを解決するために,既存のプルーニング手法で,デコード段階での視覚的トークンの整合化を可能にするトレーニングフリーアドオンフレームワークであるDecoding-aware Shift-Aware Token Pruning (DSTP)を提案する。
拡張実験により,DSTPは複雑な推論タスクにおけるプルーニング手法の性能劣化を著しく軽減する一方で,視覚的理解ベンチマークにおいても連続的に性能向上をもたらすことが示された。
さらにDSTPは、様々な最先端アーキテクチャにおける有効性を示し、その一般化性と効率を最小限の計算オーバーヘッドで強調する。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass [20.7003663809766]
視覚トークンプルーニングは、視覚言語モデルの計算コストを削減するための有望なアプローチである。
我々は、選択されていない視覚トークンを保存し、その後のプルーニングステージに転送する、バイパスと呼ばれる新しいプルーニングパラダイムを導入する。
このパラダイムに基づいて,強力な視覚トークン選択機能を備えたモデル固有の層でプルーニングを行う,単純かつトレーニング不要なSwiftVLMを提案する。
論文 参考訳(メタデータ) (2026-02-03T05:42:51Z) - ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning [8.933549837045932]
大きなビジョンランゲージモデルは、視覚トークンの冗長性のために高い計算コストを発生させる。
視覚エンコーダの冗長性フィルタリングと大規模言語モデル内の段階的協調処理を組み合わせた視覚的・テキスト的協調処理フレームワーク(ViTCoP)を提案する。
論文 参考訳(メタデータ) (2026-01-25T12:47:30Z) - Latent Implicit Visual Reasoning [59.39913238320798]
本稿では,視覚的推論トークンの発見と使用をLMMに指示するタスク非依存機構を提案する。
提案手法は直接微調整より優れ,様々な視覚中心のタスクにおいて最先端の結果が得られる。
論文 参考訳(メタデータ) (2025-12-24T14:59:49Z) - A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance [60.028070589466445]
Pyramid Token Pruning (PTP) は、階層的にボトムアップの視覚的サリエンスとトークンレベルをトップダウンの指導誘導の関連性と統合する、トレーニング不要の戦略である。
PTPは計算コスト、メモリ使用量、推論遅延を大幅に削減し、性能劣化を無視できることを示した。
論文 参考訳(メタデータ) (2025-09-19T07:28:17Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。