論文の概要: Efficient Vision-Language Reasoning via Adaptive Token Pruning
- arxiv url: http://arxiv.org/abs/2512.12701v1
- Date: Sun, 14 Dec 2025 14:11:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.390282
- Title: Efficient Vision-Language Reasoning via Adaptive Token Pruning
- Title(参考訳): アダプティブトケンプルーニングによる高能率ビジョンランゲージ推論
- Authors: Xue Li, Xiaonan Song, Henry Hu,
- Abstract要約: 本稿では,動的推論機構であるAdaptive Token Pruning(ATP)を紹介する。
ATPは視覚言語インタフェースで動作し、ViT CLSの注意とCLIPのテキストイメージの類似性を組み合わせたハイブリットの重要度スコアを割り当てる。
予備的な評価では、ATPは推論FLOPを約40%減らし、ほぼ1.5倍のスピードアップをエンドツーエンドの遅延で達成し、精度を損なうことが示されている。
- 参考スコア(独自算出の注目度): 6.515632857970247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world deployment of Vision-Language Models (VLMs) is hindered by high computational demands, as existing architectures inefficiently process all tokens uniformly. We introduce Adaptive Token Pruning (ATP), a dynamic inference mechanism that retains only the most informative tokens based on contextual relevance. ATP operates at the vision-language interface, assigning a hybrid importance score combining ViT CLS attention (intra-modal saliency) and CLIP text-image similarity (inter-modal relevance) to keep top-K tokens for the LLM. Unlike static compression, ATP adapts to each input without modifying the backbone. Proposed as a lightweight gating module, ATP is compatible with popular backbones like BLIP-2, LLaVA, and Flamingo. Preliminary evaluations across VQAv2, GQA, and COCO indicate that ATP reduces inference FLOPs by around 40% and achieves roughly 1.5x speedups in end-to-end latency with negligible accuracy loss (less than 1%). Qualitative analyses suggest ATP preserves visual grounding and enhances interpretability. Beyond efficiency, we investigate robustness under corruptions; observations suggest adaptive pruning suppresses spurious correlations, improving stability. These findings imply that resource-constrained inference and model reliability are not competing objectives. Finally, we discuss ATP's role in efficient multimodal edge computing pipelines.
- Abstract(参考訳): VLM(Vision-Language Models)の現実的な展開は、既存のアーキテクチャが全てのトークンを非効率に処理するため、高い計算要求によって妨げられている。
本稿では,動的推論機構であるAdaptive Token Pruning(ATP)を紹介する。
ATPは視覚言語インタフェースで動作し、VT CLS注意(イントラモーダルサリエンシ)とCLIPテキストイメージ類似(イントラモーダルレバレンス)を組み合わせたハイブリット重要スコアを割り当て、LLMの上位Kトークンを保持する。
静的圧縮とは異なり、ATPはバックボーンを変更することなく各入力に適応する。
ATPは軽量ゲーティングモジュールとして提案され、BLIP-2、LLaVA、Flamingoといった一般的なバックボーンと互換性がある。
VQAv2、GQA、COCOの予備評価では、ATPは推論FLOPを約40%減らし、信頼できない精度の損失(1%未満)で、エンドツーエンドのレイテンシで約1.5倍のスピードアップを達成している。
定性的分析は、ATPが視覚的な接地を保ち、解釈可能性を高めることを示唆している。
効率性以外にも,汚職下での堅牢性についても検討し,適応的な刈り取りは急激な相関を抑え,安定性を向上させることを示唆している。
これらの結果は,資源制約付き推論とモデルの信頼性が競合する目的ではないことを示唆している。
最後に、効率的なマルチモーダルエッジコンピューティングパイプラインにおけるATPの役割について論じる。
関連論文リスト
- DeLeaker: Dynamic Inference-Time Reweighting For Semantic Leakage Mitigation in Text-to-Image Models [55.30555646945055]
テキスト・ツー・イメージ(T2I)モデルはセマンティック・リークに対して脆弱である。
DeLeakerは、モデルのアテンションマップに直接介入することで、漏洩を緩和する軽量なアプローチである。
SLIMはセマンティックリークに特化した最初のデータセットである。
論文 参考訳(メタデータ) (2025-10-16T17:39:21Z) - EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning [15.733788584792388]
マルチモーダル・イン・コンテクスト・ラーニング(ICL)を対象とした学習自由プルーニング手法であるCATP(Contextual Adaptive Token Pruning)を提案する。
画像トークンの77.8%を取り除いた後、CATPは4つのLVLMと8つのベンチマークでバニラモデルよりも平均0.6%の性能向上を達成した。
平均10.78%のレイテンシ削減を達成することで効率を効果的に向上する。
論文 参考訳(メタデータ) (2025-08-11T11:41:51Z) - Perception-Aware Policy Optimization for Multimodal Reasoning [79.56070395437898]
現在のマルチモーダル推論における誤りの主な原因は、視覚入力の知覚にある。
提案するPAPOは,モデルが推論を学習しながら知覚を学習することを奨励する,新しいポリシー勾配アルゴリズムである。
知覚誤りの30.5%が有意に減少し,PAPOによる知覚能力の向上が示唆された。
論文 参考訳(メタデータ) (2025-07-08T23:22:34Z) - Saliency-driven Dynamic Token Pruning for Large Language Models [32.903622070917194]
塩分駆動型動的トケンプルーニング(SDTP)
軽量なサリエンシ駆動予測モジュールは、各トークンの重要度をその隠れ状態で推定するように設計されている。
ランキングに基づく最適化手法を提案し,評価スコアと予測重要スコアのランキングばらつきを最小化する。
論文 参考訳(メタデータ) (2025-04-06T15:15:07Z) - ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models [32.6661928486072]
ATP-LLaVAは、大規模言語モデル層ごとにインスタンス固有のトークンプルーニング比を適応的に決定する新しいアプローチである。
提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。
論文 参考訳(メタデータ) (2024-11-30T11:42:35Z) - Do Compressed LLMs Forget Knowledge? An Experimental Study with
Practical Implications [63.29358103217275]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて、パフォーマンスを低下させることが多い。
損傷の性質に関する2つの予想を提案する。1つは、圧縮後に忘れられた(または消された)知識である。
Inference-time Dynamic Prompting (IDP)と呼ばれる変種を導入し、推論オーバーヘッドを発生させることなく、迅速な多様性を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-10-02T03:12:06Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Vision Transformer with Attentive Pooling for Robust Facial Expression
Recognition [35.46476994042832]
ノイズをプールする2つのモジュール(APモジュール)を直接提示する。
彼らはモデルをガイドし、最も差別的な特徴を強調しながら、あまり関係のない特徴の影響を減らすことを目指している。
簡単に実装でき、学習可能なパラメータがなければ、APPとATPは直感的に計算コストを削減し、性能を向上する。
論文 参考訳(メタデータ) (2022-12-11T10:33:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。