Fugu-MT 論文翻訳(概要): ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models

論文の概要: ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models

arxiv url: http://arxiv.org/abs/2412.00447v1
Date: Sat, 30 Nov 2024 11:42:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:21.932654
Title: ATP-LLaVA: Adaptive Token Pruning for Large Vision Language Models
Title（参考訳）: ATP-LLaVA:大規模視覚言語モデルのための適応型トーケンプルーニング
Authors: Xubing Ye, Yukang Gan, Yixiao Ge, Xiao-Ping Zhang, Yansong Tang,
Abstract要約: ATP-LLaVAは、大規模言語モデル層ごとにインスタンス固有のトークンプルーニング比を適応的に決定する新しいアプローチである。提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。
参考スコア（独自算出の注目度）: 32.6661928486072
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision Language Models (LVLMs) have achieved significant success across multi-modal tasks. However, the computational cost of processing long visual tokens can be prohibitively expensive on resource-limited devices. Previous methods have identified redundancy in visual tokens within the Large Language Model (LLM) decoder layers and have mitigated this by pruning tokens using a pre-defined or fixed ratio, thereby reducing computational overhead. Nonetheless, we observe that the impact of pruning ratio varies across different LLM layers and instances (image-prompt pairs). Therefore, it is essential to develop a layer-wise and instance-wise vision token pruning strategy to balance computational cost and model performance effectively. We propose ATP-LLaVA, a novel approach that adaptively determines instance-specific token pruning ratios for each LLM layer. Specifically, we introduce an Adaptive Token Pruning (ATP) module, which computes the importance score and pruning threshold based on input instance adaptively. The ATP module can be seamlessly integrated between any two LLM layers with negligible computational overhead. Additionally, we develop a Spatial Augmented Pruning (SAP) strategy that prunes visual tokens with both token redundancy and spatial modeling perspectives. Our approach reduces the average token count by 75% while maintaining performance, with only a minimal 1.9% degradation across seven widely used benchmarks. The project page can be accessed via https://yxxxb.github.io/ATP-LLaVA-page/.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)はマルチモーダルタスクで大きな成功を収めた。しかし、長い視覚トークンを処理する計算コストは、リソース制限されたデバイスでは違法にコストがかかる可能性がある。従来の手法では、Large Language Model (LLM)デコーダ層内の視覚トークンの冗長性を識別しており、事前に定義されたか固定された比率でトークンをプルーニングすることで、計算オーバーヘッドを低減している。いずれにせよ, 刈り取り率の影響は, 異なるLCM層やインスタンス(イメージ・プロンプト・ペア)によって異なる。したがって、計算コストとモデル性能のバランスをとるために、レイヤワイズ、インスタンスワイズ・トークン・プルーニング戦略を開発することが不可欠である。 ATP-LLaVA(ATP-LLaVA)は,各LCM層に対して,インスタンス固有のトークンプルーニング比を適応的に決定する手法である。具体的には、入力インスタンスに基づいて重要スコアとプルーニング閾値を適応的に計算するAdaptive Token Pruning (ATP)モジュールを導入する。 ATPモジュールは、2つのLLM層間でシームレスに統合でき、計算オーバーヘッドは無視できる。さらに,トークン冗長性と空間モデリングの両面から視覚トークンを創出する空間拡張プルーニング(SAP)戦略を開発した。提案手法は,7つの広く使用されているベンチマークにおいて,最小1.9%の劣化しかなく,パフォーマンスを維持しながら平均トークン数を75%削減する。プロジェクトページはhttps://yxxxb.github.io/ATP-LLaVA-page/.comからアクセスすることができる。

関連論文リスト

A Glimpse to Compress: Dynamic Visual Token Pruning for Large Vision-Language Models [94.49953824684853]
人間の認知に触発された動的刈り取りフレームワークGlimpsePruneを導入する。データ駆動の 'glimpse' を受け取り、応答生成の前に単一のフォワードパスで無関係な視覚トークンをプルーンする。強化されたGlimpsePrune+は、同様に高いプルーニング率を維持しながら、ベースライン性能の110%を達成する。
論文参考訳（メタデータ） (2025-08-03T02:15:43Z)
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers [42.85956522420325]
MLLM(Multimodal Large Language Models)はその巨大なサイズと多数の視覚トークンのために高い計算コストを被る。本稿では,レイヤの変換が視覚およびテキストトークンに与える影響を定量化する新しいメトリクスであるレイヤ貢献(LC)を紹介する。 LCを利用して非効率なレイヤを識別し,これらのレイヤの視覚的トークン更新を凍結する,トレーニング不要なShortVを提案する。
論文参考訳（メタデータ） (2025-04-01T07:47:55Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Pruning All-Rounder: Rethinking and Improving Inference Efficiency for Large Vision Language Models [42.124670377223175]
我々は Pruning All-Rounder (PAR) と呼ばれる推論加速のための新しいフレームワークを提案する。 PARは自己教師付き学習方式により、パフォーマンスと効率のバランスが優れている。特に、PARは高い柔軟性を持ち、様々なアクセラレーションシナリオに対処する複数のプルーニングバージョンを提供する。
論文参考訳（メタデータ） (2024-12-09T13:02:35Z)
iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models [24.0346607116299]
iLLaVAは、現在のLVLM(Large Vision-Language Models)にシームレスにデプロイできるシンプルな方法である。 iLLaVAは、冗長トークンを正確で高速なアルゴリズムで発見し、徐々にマージすることでこれを達成している。単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
論文参考訳（メタデータ） (2024-12-09T07:22:19Z)
Accelerating Multimodel Large Language Models by Searching Optimal Vision Token Reduction [62.8375542401319]
MLLM(Multimodal Large Language Models)は、入力イメージを視覚トークンとしてエンコードし、それらを言語バックボーンに入力する。画像解像度が大きくなるにつれて、視覚トークンの数は2次的に増加し、膨大な計算コストがかかる。本稿では,各層を浅層から深層まで保持する最小限の視覚トークンを求めるために,欲求探索アルゴリズム(G-Search)を提案する。
論文参考訳（メタデータ） (2024-11-30T18:54:32Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Sparsity Meets Similarity: Leveraging Long-Tail Distribution for Dynamic Optimized Token Representation in Multimodal Large Language Models [6.467840081978855]
マルチモーダル大言語モデル(MM-LLM)は様々なタスクで大きな成功を収めた。主な計算負担は、処理されたテキストと視覚トークンから生じる。視覚的CLSトークン類似度曲線の屈折点を同定する動的プルーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。