論文の概要: HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
- arxiv url: http://arxiv.org/abs/2602.23699v1
- Date: Fri, 27 Feb 2026 05:55:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.271101
- Title: HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit
- Title(参考訳): HiDrop: 後期注入によるMLLMの階層的視力低下, 円錐ピラミッド刈り, 早期流出
- Authors: Hao Wu, Yingqi Fan, Jinyang Dai, Junlong Tong, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: HiDropは、トークンプルーニングとMLLM層の真の階層関数を整合させるフレームワークである。
HiDropは、元の性能にマッチしながら約90%の視覚トークンを圧縮し、トレーニングを1.72倍加速することを示す。
我々の研究は、効率的なMLLMトレーニングと推論のための新しい最先端技術を設定するだけでなく、マルチモーダル核融合の階層的性質に関する貴重な洞察を提供する。
- 参考スコア(独自算出の注目度): 13.567284097308432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computational cost of processing vision tokens in Multimodal Large Language Models (MLLMs) hinders their widespread adoption. While progressive vision token pruning offers a promising solution, current methods misinterpret shallow layer functions and use rigid schedules, which fail to unlock the full efficiency potential. To address these issues, we propose HiDrop, a framework that aligns token pruning with the true hierarchical function of MLLM layers. HiDrop features two key innovations: (1) Late Injection, which bypasses passive shallow layers to introduce visual tokens exactly where active fusion begins; and (2) Concave Pyramid Pruning with an Early Exit mechanism to dynamically adjust pruning rates across middle and deep layers. This process is optimized via an inter-layer similarity measure and a differentiable top-k operator. To ensure practical efficiency, HiDrop further incorporates persistent positional encoding, FlashAttention-compatible token selection, and parallel decoupling of vision computation to eliminate hidden overhead associated with dynamic token reduction. Extensive experiments show that HiDrop compresses about 90% visual tokens while matching the original performance and accelerating training by 1.72 times. Our work not only sets a new state-of-the-art for efficient MLLM training and inference but also provides valuable insights into the hierarchical nature of multimodal fusion. The code is released at https://github.com/EIT-NLP/HiDrop.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)における視覚トークン処理の2次計算コストは、その普及を妨げる。
プログレッシブ・ビジョントークン・プルーニングは有望な解決策を提供するが、現在の手法では浅層関数を誤って解釈し、厳密なスケジュールを使用する。
これらの問題に対処するために,トークンプルーニングとMLLM層の真の階層関数を整合させるフレームワークであるHiDropを提案する。
HiDropには2つの重要なイノベーションがある。(1)遅延注入は、受動的浅い層をバイパスし、アクティブ核融合の開始位置を正確に示す。
このプロセスは層間類似度測定と微分可能なトップk演算子によって最適化される。
実用的な効率を確保するため、HiDropはさらに、永続的な位置符号化、FlashAttention互換トークン選択、および視覚計算の並列分離を導入し、動的トークン削減に伴う隠れオーバーヘッドを排除する。
大規模な実験では、HiDropは約90%の視覚トークンを圧縮し、元の性能にマッチし、トレーニングを1.72倍加速している。
我々の研究は、効率的なMLLMトレーニングと推論のための新しい最先端技術を設定するだけでなく、マルチモーダル核融合の階層的性質に関する貴重な洞察を提供する。
コードはhttps://github.com/EIT-NLP/HiDrop.comで公開されている。
関連論文リスト
- PIO-FVLM: Rethinking Training-Free Visual Token Reduction for VLM Acceleration from an Inference-Objective Perspective [59.24570811503256]
本稿では,視覚モデル(VLM)における冗長な視覚トークンを減らし,推論を高速化するPIO-FVLMを提案する。
提案されているPIO-FVLMは、トレーニングフリーで、FlashAttentionと互換性があり、実用的なアプリケーションやデプロイメントに親しみやすい。
LLaVA-Next-7Bでは、PIO-FVLMは視覚トークンの11.1%しか保持していないが、オリジナルのパフォーマンスの97.2%を維持している。
論文 参考訳(メタデータ) (2026-02-04T15:33:10Z) - Q Cache: Visual Attention is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model [21.206033754351786]
マルチモーダル大言語モデル(MLLM)は、視覚トークンの拡散に起因する外乱推論コストに悩まされている。
既存のアプローチでは、トークンの最適化に重点を置いており、さまざまなトークンプルーニング技術を活用して、非極端なビジュアルトークンを排除している。
同様の注意パターンの層間共有を可能にする効果的な注意機構であるLazy Attentionを提案する。
論文 参考訳(メタデータ) (2026-02-02T10:08:00Z) - AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - $\mathcal{V}isi\mathcal{P}runer$: Decoding Discontinuous Cross-Modal Dynamics for Efficient Multimodal LLMs [26.779915891040236]
我々は,LLaVA-v1.5 7B上での視線関連注意計算の最大99%,FLOPの最大53.9%を削減できるトレーニングフリープルーニングフレームワークであるemphVisiPrunerを提案する。
さらに、モデルアーキテクチャと本質的なレイヤワイド処理ダイナミクスを整合させることにより、効率的なMLLMのトレーニングのための実用的なガイドラインを提供する。
論文 参考訳(メタデータ) (2025-10-20T06:40:17Z) - Don't Just Chase "Highlighted Tokens" in MLLMs: Revisiting Visual Holistic Context Retention [50.97683288777336]
MLLM(Multimodal Large Language Models)は、巨大な視覚トークンに依存するため、計算オーバーヘッドがかなり大きい。
近年の研究では、この問題を緩和するためにトークンプルーニングが検討されている。
本稿では,効率的な推論のためのビジュアルトークン・プルーニング・フレームワークであるHoloVを提案する。
論文 参考訳(メタデータ) (2025-10-03T11:33:40Z) - ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers [70.38258823378557]
MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。
本稿では,レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤ貢献(LC)を紹介する。
LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案する。
論文 参考訳(メタデータ) (2025-04-01T07:47:55Z) - PLPHP: Per-Layer Per-Head Vision Token Pruning for Efficient Large Vision-Language Models [48.31941033266855]
本稿では,2レベルきめ細粒度プルーニング法PLPHPを提案する。
PLPHPはアテンションヘッドレベルでプルーニングを適用し、同じレイヤ内の異なるヘッドが独立して重要なコンテキストを保持することができる。
複数のベンチマークの実験では、PLPHPは18%高速なデコード速度を提供し、キーバリューキャッシュ(KVキャッシュ)のサイズを50%以上削減している。
論文 参考訳(メタデータ) (2025-02-20T12:31:31Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - Accelerating Multimodal Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。
画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。
本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文 参考訳(メタデータ) (2024-11-30T18:54:32Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。