論文の概要: Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment
- arxiv url: http://arxiv.org/abs/2506.22283v1
- Date: Fri, 27 Jun 2025 14:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.245385
- Title: Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment
- Title(参考訳): LVLMにおける視力低下の再考
- Authors: Rui Xu, Yunke Wang, Yong Luo, Bo Du,
- Abstract要約: トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
提案手法は,複数の段階において重要なトークン選択と軽量なコンテキストマージを行い,攻撃的トークン予算の下でもきめ細かい視覚情報を保持できる。
- 参考スコア(独自算出の注目度): 38.04426918886084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) encode visual inputs as dense sequences of patch-level tokens to capture fine-grained semantics. These visual tokens often outnumber their textual counterparts by a large margin, leading to substantial computational overhead and limiting the scalability of LVLMs in practice. Previous efforts have explored visual token reduction either prior to or within the large language models (LLM). However, most in-LLM reduction approaches rely on text-conditioned interactions, implicitly assuming that textual tokens can reliably capture the importance of visual tokens. In this work, we revisit this assumption and reveal causal, semantic, and spatial forms of cross-modal misalignment. These misalignments undermine the effectiveness of text-guided visual token reduction. To address this, we introduce VisionDrop, a training-free, visual-only pruning framework that selects informative visual tokens based on intra-modal (visual-to-visual) attention, without relying on textual signals. To further suppress redundancy throughout the model hierarchy, we treat the visual encoder and the LLM as a unified system and design a progressive pruning pipeline. Our method performs dominant token selection and lightweight contextual merging at multiple stages, enabling fine-grained visual information to be retained even under aggressive token budgets. Extensive experiments across diverse benchmarks show that VisionDrop achieves consistent improvements over existing methods, despite requiring no additional training or complex modifications. Its simple yet effective design enables efficient inference while preserving strong performance across tasks.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードして、きめ細かなセマンティクスをキャプチャする。
これらの視覚トークンはテキストのトークンよりも大きなマージンで、計算オーバーヘッドが大きくなり、実際はLVLMのスケーラビリティが制限される。
これまでの取り組みでは、大きな言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
しかし、ほとんどのLLM内還元アプローチはテキスト条件の相互作用に依存しており、テキストトークンが視覚トークンの重要性を確実に捉えることができると暗黙的に仮定している。
本研究では,この仮定を再考し,因果的,意味的,空間的不整合の形式を明らかにする。
これらのミスアライメントは、テキストガイドによる視覚的トークン削減の有効性を損なう。
この問題を解決するために、テキスト信号に頼ることなく、モーダル内(視覚的・視覚的)の注意に基づいて情報的視覚トークンを選択する、トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを紹介した。
モデル階層全体の冗長性をさらに抑制するため、ビジュアルエンコーダとLCMを統一システムとして扱い、プログレッシブプルーニングパイプラインを設計する。
提案手法は,複数の段階において重要なトークン選択と軽量なコンテキストマージを行い,攻撃的トークン予算の下でもきめ細かい視覚情報を保持できる。
様々なベンチマークにわたる大規模な実験により、VisionDropは、追加のトレーニングや複雑な修正を必要とせず、既存のメソッドよりも一貫した改善を達成している。
そのシンプルで効果的な設計は、タスク間で強いパフォーマンスを維持しながら効率的な推論を可能にする。
関連論文リスト
- Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。
提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文 参考訳(メタデータ) (2025-06-11T08:46:55Z) - Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。
WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。
我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2025-04-05T02:32:58Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。