論文の概要: Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning
- arxiv url: http://arxiv.org/abs/2602.05809v1
- Date: Thu, 05 Feb 2026 16:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.023613
- Title: Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning
- Title(参考訳): Focus-Scan-Refine:人間の視覚知覚から効率的な視覚トーケンプルーニングへ
- Authors: Enwei Tong, Yuanchao Bai, Yao Zhu, Junjun Jiang, Xianming Liu,
- Abstract要約: 視覚言語モデル(VLM)は、しばしば大量の視覚トークンを生成し、推論遅延とメモリフットプリントを大幅に増加させる。
視覚的質問に対して人間がどのように答えるかを模倣する,人間にインスパイアされたプラグアンドプレイプルーニングフレームワークであるFSRを提案する。
FSRは、既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善する。
- 参考スコア(独自算出の注目度): 78.75062483648243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) often generate massive visual tokens that greatly increase inference latency and memory footprint; while training-free token pruning offers a practical remedy, existing methods still struggle to balance local evidence and global context under aggressive compression. We propose Focus-Scan-Refine (FSR), a human-inspired, plug-and-play pruning framework that mimics how humans answer visual questions: focus on key evidence, then scan globally if needed, and refine the scanned context by aggregating relevant details. FSR first focuses on key evidence by combining visual importance with instruction relevance, avoiding the bias toward visually salient but query-irrelevant regions. It then scans for complementary context conditioned on the focused set, selecting tokens that are most different from the focused evidence. Finally, FSR refines the scanned context by aggregating nearby informative tokens into the scan anchors via similarity-based assignment and score-weighted merging, without increasing the token budget. Extensive experiments across multiple VLM backbones and vision-language benchmarks show that FSR consistently improves the accuracy-efficiency trade-off over existing state-of-the-art pruning methods. The source codes can be found at https://github.com/ILOT-code/FSR
- Abstract(参考訳): 視覚言語モデル(VLM)はしばしば、推論遅延とメモリフットプリントを大幅に増加させる巨大な視覚トークンを生成する。
FSR(Focus-Scan-Refine)は、人間が視覚的な質問にどのように答えるかを模倣し、重要な証拠に焦点を合わせ、必要に応じてグローバルにスキャンし、関連する詳細を集約してスキャンされたコンテキストを洗練する、人間にインスパイアされたプラグ&プレイのプルーニングフレームワークである。
FSRはまず、視覚的重要度と命令関連性を組み合わせることで重要なエビデンスに焦点を当て、視覚的に健全だがクエリ非関連な領域への偏見を避ける。
次に、フォーカスされた集合に条件付けられた補完的なコンテキストをスキャンし、フォーカスされたエビデンスと最も異なるトークンを選択する。
最後に、FSRは、類似性に基づく代入とスコア重み付けによるスキャンアンカーに近くの情報トークンを集約することで、トークン予算を増大させることなくスキャンされたコンテキストを洗練する。
複数のVLMバックボーンとビジョン言語ベンチマークの広範な実験により、FSRは既存の最先端プルーニング法よりも精度と効率のトレードオフを一貫して改善している。
ソースコードはhttps://github.com/ILOT-code/FSRで確認できる。
関連論文リスト
- IVC-Prune: Revealing the Implicit Visual Coordinates in LVLMs for Vision Token Pruning [27.75049214892312]
LVLM(Large Vision-Language Models)は、複数のタスクにまたがる優れたパフォーマンスを実現する。
しかし、重要な課題は、高解像度の視覚入力を処理する際に、その禁止的な推論コストである。
IVCトークンと意味論的に関連するフォアグラウンドトークンの両方を保持するトレーニングフリーで、プロンプト対応のプルーニング戦略である textbfIVC-Prune を提案する。
論文 参考訳(メタデータ) (2026-02-03T03:39:31Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization [70.98122339799218]
LMM(Large Multimodal Models)は、多数の視覚トークンを微粒な視覚情報に活用することにより、視覚言語タスクに優れる。
推論中の視覚トークンを減らすことを目的とした以前の研究は、一般的に、視覚のみのトークンや視覚言語トークンの注意スコアから得られた重要マップを利用して、1つまたは複数のプルーニング段階にわたってトークンをプルーンする。
重要地図導出プロセスとリサイクル機構を備えたプログレッシブプルーニングモジュールを導入したトークンプルーニングフレームワークであるVFlowOptを提案する。
実験により、VFlowOptは、同等のパフォーマンスを維持しながら、90%のビジュアルトークンをプルークでき、KVキャッシュメモリが89%削減され、3.8になった。
論文 参考訳(メタデータ) (2025-08-07T09:47:21Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - Beyond Intermediate States: Explaining Visual Redundancy through Language [7.275188652473603]
MLLM(Multi-modal Large Langue Models)はしばしば数千の視覚トークンを処理する。
低いViT-[cls]アソシエーションと低いテキスト・ツー・イメージアテンションスコアを持つビジュアルトークンは、認識可能な情報を含むことができる。
冗長な視覚トークンを識別および解析するための信頼性の高い手法を開発した。
論文 参考訳(メタデータ) (2025-03-26T13:38:10Z) - QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension [86.0749609778104]
既存の大規模ビデオ言語モデルを拡張した,アンテホックなトレーニングフリーモジュールQuoTAを提案する。
QuoTAは、クエリ関連性に基づいて、フレームレベルの重要度スコアを戦略的に割り当てる。
クエリをChain-of-Thoughts推論で切り離し、より正確なLVLMベースのフレーム重要度スコアリングを容易にする。
論文 参考訳(メタデータ) (2025-03-11T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。