論文の概要: Focus-then-Context: Subject-Centric Progressive Visual Token Reduction for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.20950v1
- Date: Wed, 20 May 2026 09:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.601758
- Title: Focus-then-Context: Subject-Centric Progressive Visual Token Reduction for Vision-Language Models
- Title(参考訳): Focus-then-Context: 視覚言語モデルに対する主観的進行的視覚トークン削減
- Authors: Yulin Zhao, Yun Wang, Dehua Zheng, Borui jiang, Zheng Zhang,
- Abstract要約: SPprunerは主題中心のプログレッシブ・リダクション・パラダイムである。
人間の視覚知覚システムのtextitFocus-then-Contextメカニズムをエミュレートする。
視覚入力の高忠実度表現を保証するために、包括的視覚被写体スペクトルを掘削することができる。
- 参考スコア(独自算出の注目度): 16.39553879497114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) face a bottleneck of prohibitive computational costs arising from massive visual token sequences during inference. Existing vision token reduction methods alleviate this burden, but they unintentionally preserve the isolated visual subject strictly aligned with the user's query, which fails to substantially explore salient subjects and their contextual relationships. In this paper, we propose SPpruner, a subject-centric progressive reduction paradigm that emulates the \textit{Focus-then-Context} mechanism of the human visual perception system. Specifically, we first construct a focus identification module to explicitly model the interplay between visual saliency and semantic relevance. Herein, it can excavate the comprehensive visual subject spectrum to ensure a high-fidelity representation of visual input. Subsequently, a context-aware structural scanning module is developed to aggregate contextual cues from neighboring regions. As such, it can effectively restore global relational dependencies to uphold the structural integrity of the preserved subjects. Extensive experiments demonstrate that our paradigm consistently outperforms SOTA methods, achieving up to 2.53 times speedup with only 22.2% of visual tokens retained in Qwen2.5-VL and a 67% FLOPs reduction on LLaVA with a negligible 0.6% accuracy drop.
- Abstract(参考訳): VLM(Vision-Language Models)は、推論中に大量の視覚トークン列から生じる計算コストのボトルネックに直面している。
既存の視覚トークン削減手法は、この負担を軽減するが、ユーザのクエリと厳密に一致した孤立した視覚被写体を意図せず保存する。
本稿では,人間の視覚知覚システムの「textit{Focus-then-Context}」機構をエミュレートした,主観中心のプログレッシブ・リダクション・パラダイムであるSPprunerを提案する。
具体的には、まず、視覚的満足度と意味的関連性の間の相互作用を明示的にモデル化する焦点識別モジュールを構築する。
ここでは、視覚入力の高忠実度表現を保証するために、包括的視覚被写体スペクトルを探索することができる。
その後、コンテキスト認識型構造スキャンモジュールを開発し、近隣地域からのコンテキストキューを集約する。
これにより、グローバルなリレーショナル依存関係を効果的に復元し、保存対象の構造的整合性を維持することができる。
我々のパラダイムは、Qwen2.5-VLで保持される視覚トークンの22.2%で最大2.53倍のスピードアップを達成し、LLaVAでは67%のFLOPが0.6%の精度低下で67%の削減を実現している。
関連論文リスト
- Nüwa: Mending the Spatial Integrity Torn by VLM Token Pruning [82.39668822222386]
ビジョントークンプルーニングは、効率的なビジョン言語モデル(VLM)のための効果的なアクセラレーション手法であることが証明された。
空間的整合性を維持しつつ,効率的な特徴集約を実現するための2段階のトークンプルーニングフレームワークである$textNwa$を提案する。
実験によると、textNwa$は複数のVQAベンチマーク(94%から95%)でSOTAのパフォーマンスを達成し、視覚的グラウンドタスク(7%から47%)を大幅に改善している。
論文 参考訳(メタデータ) (2026-02-03T00:51:03Z) - Stable Language Guidance for Vision-Language-Action Models [62.80963701282789]
残留セマンティックステアリング(Residual Semantic Steering)は、セマンティック実行から身体的余裕を逸脱する確率的フレームワークである。
RSSは最先端の堅牢性を実現し、敵対的な言語摂動の下でも性能を維持する。
論文 参考訳(メタデータ) (2026-01-07T16:16:10Z) - ViPER: Empowering the Self-Evolution of Visual Perception Abilities in Vision-Language Model [61.29164681694533]
ViPERは、自己評価と自己予測を通じて反復的な進化を可能にするように設計されたセルフブートストラッピングフレームワークである。
Qwen-Viperは、汎用性を維持しながら、さまざまな視覚言語シナリオにおける優れたパフォーマンスを一貫して示す。
論文 参考訳(メタデータ) (2025-10-28T10:42:57Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [9.406760867809124]
本稿では,視覚入力構造を用いた拡張推論(VISER)を提案する。
VISERは、低レベルの空間構造を持つ視覚入力を増強する、シンプルで効果的な方法である。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。