論文の概要: VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2605.31457v1
- Date: Fri, 29 May 2026 15:51:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.714351
- Title: VisionPulse: Dynamic Visual Sparsity for Efficient Multimodal Reasoning
- Title(参考訳): VisionPulse: 効率的なマルチモーダル推論のための動的視覚空間
- Authors: Hengbo Xu, Shengjie Jin, Yanbiao Ma, Zhiwu Lu,
- Abstract要約: 推論中に段階的に視覚的トークンを抽出するフレームワークであるVisionPulseを提案する。
VisionPulseは、推論中に視覚的間隔を強制することにより、関連する視覚的証拠を保持しながら冗長な視覚的コンテキストをフィルタリングし、推論トレースを自然に短縮する。
- 参考スコア(独自算出の注目度): 15.03674139835036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of large multimodal models (LMMs), inference-time overhead has become a key bottleneck for real-world deployment. Existing methods typically prune visual tokens at prefill, assuming the required visual evidence remains static during reasoning. However, we empirically show that visual evidence is strongly step-dependent: only a sparse subset of visual tokens is critical at each decoding step, and the critical set evolves across reasoning. Furthermore, we identify a coupled bottleneck where redundant visual context can steer the model toward query-irrelevant regions, lengthening the reasoning trace. Guided by these insights, we propose VisionPulse, a step-wise visual token pruning framework during reasoning. VisionPulse computes a lightweight visual attention mass to estimate the step-wise retention budget by exploiting its strong positive correlation with LMMs' effective visual token usage and retain only the most critical tokens under this budget. By enforcing visual sparsity during reasoning, VisionPulse filters redundant visual context while preserving relevant visual evidence, shortening reasoning traces naturally. Extensive experiments show that VisionPulse only retains 5% of visual tokens per step with reasoning traces shortened by 11.2%, while keeping accuracy almost unchanged.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の急速な進歩により、推論時間オーバーヘッドは現実の展開において重要なボトルネックとなっている。
既存の方法は通常、必要となる視覚的証拠が推論中に静止していると仮定して、プリフィル時に視覚的トークンをプーンする。
しかし、視覚的エビデンスは非常にステップ依存的であることを実証的に示し、各デコードステップにおいて視覚的トークンのまばらなサブセットのみが重要であり、臨界セットは推論を越えて進化する。
さらに、冗長な視覚コンテキストがクエリ非関連領域に向けてモデルを操り、推論トレースを延長する結合ボトルネックを同定する。
これらの知見に導かれて、推論中に段階的に視覚的トークンを抽出するフレームワークであるVisionPulseを提案する。
VisionPulseは軽量な視覚的注意質量を計算し、LMMの効果的な視覚的トークン使用量との強い正の相関を利用してステップワイズ保持予算を推定し、この予算の下で最も重要なトークンのみを保持する。
VisionPulseは、推論中に視覚的間隔を強制することにより、関連する視覚的証拠を保持しながら冗長な視覚的コンテキストをフィルタリングし、推論トレースを自然に短縮する。
大規模な実験では、VisionPulseは1ステップあたりの視覚トークンの5%しか保持せず、推論トレースは11.2%短縮され、精度はほぼ変化していない。
関連論文リスト
- OccamToken: Efficient VLM Inference with Training-Free and Budget-Adaptive Token Pruning [24.164883144694656]
OccamTokenは、絶対トークンランキングを登録された相対的エビデンステストに置き換える、トレーニング不要のフレームワークである。
我々はOccamTokenが、追加のトレーニングなしで精度と効率のトレードオフを継続的に改善していることを示します。
論文 参考訳(メタデータ) (2026-05-28T09:20:47Z) - Self-Consistent Latent Reasoning: Long Latent Sequence Reasoning for Vision-Language Model [56.21523258053447]
SCOLAR(Self-Consistent LAtent Reasoning)は、1枚のショットで補助的な視覚トークンを生成する軽量なデコンバータを導入している。
SCOLARは許容遅延CoT長を30ドル以上延長し、実世界の推論ベンチマークでオープンソースモデルの間で最先端を実現している。
論文 参考訳(メタデータ) (2026-05-12T14:13:08Z) - LearnPruner: Rethinking Attention-based Token Pruning in Vision Language Models [8.039490357019801]
VLM(Vision-Language Models)は近年,視覚的理解と推論において顕著な能力を示した。
また、長い視覚的シーケンス入力による計算負荷も大きい。
近年の研究では、重要でない視覚トークンを抽出し、計算量を大幅に削減することでこの問題に対処している。
論文 参考訳(メタデータ) (2026-04-27T01:56:59Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。