論文の概要: AdaptInfer: Adaptive Token Pruning for Vision-Language Model Inference with Dynamical Text Guidance
- arxiv url: http://arxiv.org/abs/2508.06084v1
- Date: Fri, 08 Aug 2025 07:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.119746
- Title: AdaptInfer: Adaptive Token Pruning for Vision-Language Model Inference with Dynamical Text Guidance
- Title(参考訳): AdaptInfer:動的テキストガイダンスを用いた視覚言語モデル推論のための適応的トークンプルーニング
- Authors: Weichen Zhang, Zhui Zhu, Ningbo Li, Kebin Liu, Yunhao Liu,
- Abstract要約: 視覚言語モデル(VLM)は、視覚的質問応答(VQA)のような多モーダル推論タスクにおいて印象的な性能を達成した。
プリフィル段階で処理される多数の視覚トークンのために、それらの推論コストは依然として大きな課題である。
既存のプルーニング手法は、しばしばアテンションパターンや静的テキストプロンプトガイダンスを直接使用することに依存し、推論時に発生する動的内部信号の活用に失敗する。
InVLMにおける適応型視覚トークンプルーニングのためのプラグイン・アンド・プレイフレームワークであるAdaptInferを提案する。
- 参考スコア(独自算出の注目度): 7.594255363909475
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have achieved impressive performance on multimodal reasoning tasks such as visual question answering (VQA), but their inference cost remains a significant challenge due to the large number of vision tokens processed during the prefill stage. Existing pruning methods often rely on directly using the attention patterns or static text prompt guidance, failing to exploit the dynamic internal signals generated during inference. To address these issues, we propose AdaptInfer, a plug-and-play framework for adaptive vision token pruning in VLMs. First, we introduce a fine-grained, dynamic text-guided pruning mechanism that reuses layer-wise text-to-text attention maps to construct soft priors over text-token importance, allowing more informed scoring of vision tokens at each stage. Second, we perform an offline analysis of cross-modal attention shifts and identify consistent inflection locations in inference, which inspire us to propose a more principled and efficient pruning schedule. Our method is lightweight and plug-and-play, also generalizable across multi-modal tasks. Experimental results have verified the effectiveness of the proposed method. For example, it reduces CUDA latency by 61.3\% while maintaining an average accuracy of 92.9\% on vanilla LLaVA-1.5-7B. Under the same token budget, AdaptInfer surpasses SOTA in accuracy.
- Abstract(参考訳): 視覚言語モデル(VLM)は、視覚質問応答(VQA)のような多モーダル推論タスクにおいて顕著な性能を達成しているが、プリフィル段階で処理される多数の視覚トークンのために、その推論コストは依然として大きな課題である。
既存のプルーニング手法は、しばしばアテンションパターンや静的テキストプロンプトガイダンスを直接使用することに依存し、推論時に発生する動的内部信号の活用に失敗する。
これらの問題に対処するため,VLMにおける適応型視覚トークンプルーニングのためのプラグイン・アンド・プレイフレームワークであるAdaptInferを提案する。
まず,レイヤワイズなテキスト・ツー・テキスト・アテンション・マップを再利用し,テキスト・ツー・テキスト・アテンション・マップをソフトに構築する,微細でダイナミックなテキスト誘導型プルーニング機構を導入し,各ステージにおける視覚トークンのより情報的なスコアリングを可能にする。
第2に、モーダル間注目シフトのオフライン解析を行い、推論における一貫したインフレクション位置を同定し、より原理的で効率的なプルーニングスケジュールを提案する。
本手法は軽量かつプラグアンドプレイであり,マルチモーダルタスクにまたがる一般化も可能である。
提案手法の有効性を実験的に検証した。
例えば、CUDAレイテンシを61.3\%削減し、バニラLLaVA-1.5-7Bの平均精度92.9\%を維持する。
同じトークン予算の下で、AdaptInferはSOTAを精度で上回る。
関連論文リスト
- Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。
空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。
当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文 参考訳(メタデータ) (2025-03-11T03:58:17Z) - Efficient and Context-Aware Label Propagation for Zero-/Few-Shot Training-Free Adaptation of Vision-Language Model [41.55165760439727]
視覚言語モデル(VLM)は、さまざまな下流タスクに取り組むために、トレーニング済みの大きなモデルを活用することで、機械学習に革命をもたらした。
ラベル効率適応と推論のためのグラフベースの手法を提案する。
提案手法は,テキストプロンプト,少数ショット例,テストサンプルのグラフを動的に構築する。
論文 参考訳(メタデータ) (2024-12-24T09:15:00Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models [10.713680139939354]
大きなコーパスで事前訓練された視覚言語モデル(VLM)は、下流のタスクで顕著な成功を収めている。
PETLはフル微調整の代替として注目されている。
グラフニューラルネットワーク(GNN)において,$p$-Laplacianメッセージパッシングを利用する新しいアダプタアーキテクチャである$p$-adapterを提案する。
論文 参考訳(メタデータ) (2023-12-17T05:30:35Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。