論文の概要: ApET: Approximation-Error Guided Token Compression for Efficient VLMs
- arxiv url: http://arxiv.org/abs/2602.19870v1
- Date: Mon, 23 Feb 2026 14:15:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.843069
- Title: ApET: Approximation-Error Guided Token Compression for Efficient VLMs
- Title(参考訳): ApET: 効率的なVLMのための近似誤差誘導型トーケン圧縮
- Authors: Qiankun Ma, Ziyao Zhang, Haofei Wang, Jie Chen, Zhen Song, Hairong Zheng,
- Abstract要約: 本稿では,近似エラーガイド付きToken圧縮フレームワークであるApETを紹介する。
ApETは、画像理解タスクのオリジナルパフォーマンスの95.2%を保持し、ビデオ理解タスクの100.4%を達成している。
ApETは無注意設計のため、FlashAttentionとシームレスに統合され、さらなる推論を可能にし、VLMのデプロイをより実用的なものにしている。
- 参考スコア(独自算出の注目度): 16.4657793751671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language Models (VLMs) have demonstrated remarkable multimodal understanding capabilities, yet the redundant visual tokens incur prohibitive computational overhead and degrade inference efficiency. Prior studies typically relies on [CLS] attention or text-vision cross-attention to identify and discard redundant visual tokens. Despite promising results, such solutions are prone to introduce positional bias and, more critically, are incompatible with efficient attention kernels such as FlashAttention, limiting their practical deployment for VLM acceleration. In this paper, we step away from attention dependencies and revisit visual token compression from an information-theoretic perspective, aiming to maximally preserve visual information without any attention involvement. We present ApET, an Approximation-Error guided Token compression framework. ApET first reconstructs the original visual tokens with a small set of basis tokens via linear approximation, then leverages the approximation error to identify and drop the least informative tokens. Extensive experiments across multiple VLMs and benchmarks demonstrate that ApET retains 95.2% of the original performance on image-understanding tasks and even attains 100.4% on video-understanding tasks, while compressing the token budgets by 88.9% and 87.5%, respectively. Thanks to its attention-free design, ApET seamlessly integrates with FlashAttention, enabling further inference acceleration and making VLM deployment more practical. Code is available at https://github.com/MaQianKun0/ApET.
- Abstract(参考訳): 近年のビジョン・ランゲージ・モデル(VLM)は目覚ましいマルチモーダル理解能力を示したが、冗長な視覚トークンは計算オーバーヘッドを禁止し、推論効率を低下させた。
従来の研究では、冗長な視覚トークンを識別および破棄するために、[CLS]の注意やテキストビジョンの相互注意に依存していました。
有望な結果にもかかわらず、そのようなソリューションは位置バイアスを導入しがちであり、より重要なことは、FlashAttentionのような効率的な注意カーネルと互換性がなく、VLMアクセラレーションの実践的なデプロイを制限している。
本稿では、注意依存から脱却し、情報理論の観点から視覚的トークン圧縮を再考し、注意を介さずに視覚情報を最大限に保存することを目的とする。
本稿では,近似エラーガイド付きToken圧縮フレームワークであるApETを紹介する。
ApETはまず、線形近似(英語版)により小さな基底トークンで元の視覚トークンを再構成し、次に近似誤差を利用して最小情報トークンを識別およびドロップする。
複数のVLMとベンチマークの広範な実験により、ApETは、画像に基づくタスクにおける元のパフォーマンスの95.2%を保持し、ビデオによるタスクでは100.4%、トークンの予算は88.9%、87.5%であることが示された。
ApETは無注意設計のため、FlashAttentionとシームレスに統合され、さらなる推論アクセラレーションを可能にし、VLMのデプロイをより実用的なものにしている。
コードはhttps://github.com/MaQianKun0/ApETで入手できる。
関連論文リスト
- DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference [14.714791872881397]
DUET-VLMは汎用的なプラグアンドプレイデュアル圧縮フレームワークである。
精度を犠牲にすることなく、視覚的(イメージ/ビデオ)入力を小さくする堅牢な適応を可能にする。
本研究は,DUET-VLMによるエンドツーエンドトレーニングに焦点を当てた。
論文 参考訳(メタデータ) (2026-02-21T14:22:49Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - Streamline Without Sacrifice -- Squeeze out Computation Redundancy in LMM [41.796933489107815]
我々は,視覚トークンの計算レベルの冗長性を同定し,情報損失を確実にする。
本稿では,プロキシビジョントークンを用いた新しいアプローチであるProxyVを提案する。
論文 参考訳(メタデータ) (2025-05-21T17:59:52Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。