Fugu-MT 論文翻訳(概要): Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models

論文の概要: Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2503.08019v1
Date: Tue, 11 Mar 2025 03:58:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.543855
Title: Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models
Title（参考訳）: 大規模ビジョンランゲージモデルに対するマルチキュー適応型視覚トーンプルーニング
Authors: Bozhi Luan, Wengang Zhou, Hao Feng, Zhe Wang, Xiaosong Li, Houqiang Li,
Abstract要約: 本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
参考スコア（独自算出の注目度）: 85.51753014478315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As the computational needs of Large Vision-Language Models (LVLMs) increase, visual token pruning has proven effective in improving inference speed and memory efficiency. Traditional pruning methods in LVLMs predominantly focus on attention scores to determine token relevance, overlooking critical aspects such as spatial position and token similarity. To this end, we introduce AdaptPrune, a novel plug-and-play training-free pruning method that builds on conventional attention-based pruning by integrating spatial distance and token similarity with an adaptive NMS approach. Our method is based on several observed phenomena in large models: the positional bias in the model's image attention and the redundancy of token information ignored by previous approaches. By integrating attention, spatial, and similarity information, our approach ensures a comprehensive evaluation of token importance and substantially refines the pruning decisions. Our method has been extensively tested across various LVLMs and benchmarks, confirming its robustness and adaptability. The results demonstrate that AdaptPrune consistently outperforms existing methods across various pruning ratios. Code is available at https://github.com/bzluan/AdaptPrune.
Abstract（参考訳）: LVLM(Large Vision-Language Models)の計算ニーズが増大するにつれて、視覚トークンプルーニングは推論速度とメモリ効率を改善するのに有効であることが証明された。 LVLMの伝統的なプルーニング手法は、主に注意点に着目してトークンの関連性を決定し、空間的位置やトークン類似性といった重要な側面を見渡す。そこで本研究では,空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで,従来の注目プルーニングに基づく新しいプラグ&プレイフリープルーニング手法であるAdaptPruneを紹介する。提案手法は,大規模モデルにおいて観測されたいくつかの現象,すなわち,画像の注意における位置バイアスと,それ以前のアプローチで無視されたトークン情報の冗長性に基づく。注意情報,空間情報,類似性情報を統合することにより,トークンの重要性を包括的に評価し,プルーニング決定を大幅に洗練する。提案手法は様々なLVLMおよびベンチマークで広くテストされており,その堅牢性と適応性が確認されている。その結果、AdaptPruneは様々なプルーニング比率で既存のメソッドを一貫して上回ります。コードはhttps://github.com/bzluan/AdaptPrune.comで入手できる。

関連論文リスト

Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文参考訳（メタデータ） (2025-08-16T19:12:09Z)
AdaptInfer: Adaptive Token Pruning for Vision-Language Model Inference with Dynamical Text Guidance [7.594255363909475]
視覚言語モデル(VLM)は、視覚的質問応答(VQA)のような多モーダル推論タスクにおいて印象的な性能を達成した。プリフィル段階で処理される多数の視覚トークンのために、それらの推論コストは依然として大きな課題である。既存のプルーニング手法は、しばしばアテンションパターンや静的テキストプロンプトガイダンスを直接使用することに依存し、推論時に発生する動的内部信号の活用に失敗する。 InVLMにおける適応型視覚トークンプルーニングのためのプラグイン・アンド・プレイフレームワークであるAdaptInferを提案する。
論文参考訳（メタデータ） (2025-08-08T07:27:26Z)
GreedyPrune: Retenting Critical Visual Token Set for Large Vision Language Models [5.025353943896242]
GreedyPruneは、セマンティックサリエンシと視覚的多様性を最適化するために設計された、トレーニング不要のビジュアルトークンプルーニングアルゴリズムである。 GreedyPruneは様々なマルチモーダルタスクやモデルにまたがって最先端の精度を実現し、エンドツーエンドの推論遅延を大幅に低減することを示す。
論文参考訳（メタデータ） (2025-06-16T07:21:11Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations [2.992602379681373]
マルチモーダル微調整により,OoDDの性能が向上することを示す。本稿では,IDデータの画像とテキストの埋め込み距離を正規化することにより,モーダルアライメントを向上させる訓練目標を提案する。
論文参考訳（メタデータ） (2025-03-24T16:00:21Z)
TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文参考訳（メタデータ） (2025-03-24T01:47:26Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文参考訳（メタデータ） (2024-09-27T17:59:50Z)
Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-02-22T12:55:01Z)
SeiT++: Masked Token Modeling Improves Storage-efficient Training [36.95646819348317]
近年のDeep Neural Network(DNN)モデルでは,コンピュータビジョンタスクのパフォーマンスが大幅に向上している。高度に一般化可能で高性能なビジョンモデルを実現するには、拡張データセットが必要である。 SeiTによる最近のブレークスルーは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案した。本稿では,自己指導型事前学習のためのMasked Token Modeling (MTM)を統合し,SeyTを拡張した。
論文参考訳（メタデータ） (2023-12-15T04:11:34Z)
DenseDINO: Boosting Dense Self-Supervised Learning with Token-Based Point-Level Consistency [12.881617910150688]
本稿では,DenseDINOと呼ばれる自己教師型学習のためのトランスフォーマーフレームワークを提案する。具体的には、DenseDINOは参照トークンと呼ばれるいくつかの追加の入力トークンを導入し、ポイントレベルの特徴と以前の位置とを一致させる。提案手法は,バニラDINOと比較して,ImageNetの分類で評価すると,競争性能が向上する。
論文参考訳（メタデータ） (2023-06-06T15:04:45Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)
An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文参考訳（メタデータ） (2021-06-06T02:27:55Z)
Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-20T20:30:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。