論文の概要: Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2605.09429v1
- Date: Sun, 10 May 2026 09:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.246772
- Title: Evading Visual Aphasia: Contrastive Adaptive Semantic Token Pruning for Vision-Language Models
- Title(参考訳): 視覚失語:視覚言語モデルに対するコントラスト適応的セマンティックトケンプルーニング
- Authors: Jie Ma, Yihang Liu, Zhike Qiu, Jiayi Ji, Xiaoshuai Sun,
- Abstract要約: 本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTはトークン予算をまたいだ強力なプルーニングベースラインを一貫して上回り、複数のLVLMファミリをまたいだ一般化を実現している。
- 参考スコア(独自算出の注目度): 52.78477729846771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Are low-attention visual tokens truly redundant in vision-language reasoning? Existing pruning methods often assume so, ranking visual tokens by shallow text-to-image attention and discarding low-scoring patches to accelerate LVLM inference. We show that this scalar criterion is unreliable for compositional reasoning: tokens ignored in early layers can later become essential for resolving secondary objects, spatial relations, and contextual cues. Premature pruning can therefore induce Visual Aphasia, a failure mode in which the model loses visual grounding and falls back on language priors. We introduce COAST (COntrastive Adaptive Semantic Token Pruning), a training-free pruning framework that casts compression as adaptive semantic routing. COAST uses native cross-modal attention to identify query-specific anchors and estimate contextual dispersion via attention entropy, then adapts the retention trade-off between semantic evidence and spatial context. It further uses a contrastive routing score to preserve both anchor-aligned evidence and complementary spatial context. Across seven benchmarks, COAST reduces visual tokens by 77.8% and achieves a 2.15x latency speedup while retaining 98.64% of the original average performance. Beyond a single backbone or compression setting, COAST consistently outperforms strong pruning baselines across token budgets and generalizes across multiple LVLM families, showing that adaptive semantic routing is a robust alternative to one-shot scalar pruning
- Abstract(参考訳): 低アテンション視覚トークンは視覚言語推論において本当に冗長か?
既存のプルーニング法はしばしばそう仮定し、浅いテキスト・ツー・イメージの注意によって視覚トークンをランク付けし、LVLM推論を加速するために低スコアのパッチを捨てる。
初期層で無視されたトークンは、後に二次オブジェクト、空間関係、文脈的手がかりの解決に必須となる。
早期のプルーニングは視覚失語を誘発するが、これはモデルが視覚的な接地を失い、言語の先行言語に逆戻りする失敗モードである。
本稿では,COAST(Contrastive Adaptive Semantic Token Pruning)について紹介する。
COASTは、クエリ固有のアンカーを特定し、アテンションエントロピーを介してコンテキスト分散を推定するために、ネイティブなクロスモーダルアテンションを使用し、セマンティックエビデンスと空間コンテキストの間の保持トレードオフに適応する。
さらに、コントラスト的なルーティングスコアを使用して、アンカーアライメントされたエビデンスと相補的な空間コンテキストの両方を保存する。
7つのベンチマークで、COASTは視覚トークンを77.8%削減し、元の平均性能の98.64%を維持しながら2.15倍のレイテンシ高速化を実現している。
単一のバックボーンや圧縮設定を超えて、COASTはトークン予算で強いプルーニングベースラインを一貫して上回り、複数のLVLMファミリで一般化し、適応的なセマンティックルーティングがワンショットスカラープルーニングの堅牢な代替手段であることを示す。
関連論文リスト
- RCP: Representation Consistency Pruner for Mitigating Distribution Shift in Large Vision-Language Models [24.3914653184824]
LVLM(Large Vision-Language Models)は、言語デコーダによって処理される膨大な数の視覚トークンによって、推論の禁止コストに悩まされる。
既存のプルーニング法は、視覚トークンの可逆的な除去が、事前訓練されたフルトケン状態から逸脱した隠れ状態の分布シフトを引き起こすため、大きな性能劣化を引き起こすことが多い。
本稿では,累積的視覚トークンプルーニングと遅延修復機構を統合した一貫性表現プルーナを提案する。
論文 参考訳(メタデータ) (2026-04-04T13:31:45Z) - Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models [75.27089289058613]
textbfTIES(textbfTau-guided textbfInter-layer textbfEfficient textbfSelection)は、層間トークンランキングの整合性によって導かれる動的フレームワークである。
CogACT + SIMPLERベンチマークでは、TIESは平均成功率を6%改善し、トークン使用率を78%削減した。
論文 参考訳(メタデータ) (2026-03-26T02:13:03Z) - CORE: Context-Robust Remasking for Diffusion Language Models [51.59514489363897]
我々は、推論時リビジョンのためのトレーニング不要フレームワークであるContext-Robust Remasking (CORE)を提案する。
静的トークンの確率を信頼するのではなく、COREは、ターゲットとなるマスク付きコンテキストの摂動に対する感受性を示すことによって、コンテキスト不安定なトークンを識別する。
LLaDA-8B-Baseでは、COREは推論とコードベンチマークの間で一貫した改善を行い、計算に適合したベースラインを上回り、MBPPを最大9.2%改善した。
論文 参考訳(メタデータ) (2026-02-04T00:12:30Z) - ZSPAPrune: Zero-Shot Prompt-Aware Token Pruning for Vision-Language Models [7.7352936204066]
本稿では,タスク関連性と情報多様性のバランスとして,視覚トークンプルーニングをモデル化する新しいゼロショット手法を提案する。
本手法は,精度の低下を最小限に抑えて,最先端技術に適合または超越した性能を実現する。
これらのゲインには、GPUメモリフットプリントの大幅な削減と推論レイテンシが伴っている。
論文 参考訳(メタデータ) (2025-10-20T06:18:47Z) - AttAnchor: Guiding Cross-Modal Token Alignment in VLMs with Attention Anchors [3.9039205692819547]
本研究では,意味論的に類似したトークンをモダリティ間で効率的にグループ化するパラメータフリーフレームワークであるAttention Anchorを提案する。
関連する視覚的パッチの近くにテキストトークンを挿入することで、真のコンテンツベースのクロスモーダルアテンションスコアを示すセマンティックなサインポストを作成する。
AttAnchorは15のメトリクスとベンチマークのうち13の改善を実現している。
論文 参考訳(メタデータ) (2025-09-27T04:37:26Z) - PoRe: Position-Reweighted Visual Token Pruning for Vision Language Models [12.189644988996022]
本稿では,視覚的トークンプルーニングにおける遅延バイアスを軽減するための,極めて単純かつ効果的なアプローチを提案する。
画像内の空間的位置に応じて視覚的トークンの注意点を調節する簡単なリウェイト機構を提案する。
提案手法は,既存のビジュアルトークンプルーニングフレームワークにシームレスに組み込むことができるプラグイン・アンド・プレイソリューションである。
論文 参考訳(メタデータ) (2025-08-25T08:56:32Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。