Fugu-MT 論文翻訳(概要): SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

論文の概要: SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models

arxiv url: http://arxiv.org/abs/2305.15033v2
Date: Mon, 26 Feb 2024 15:26:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 22:58:38.086941
Title: SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models
Title（参考訳）: SmartTrim: 効率的なビジョンランゲージモデルのための適応型トークンとアテンションプルーニング
Authors: Zekun Wang, Jingchang Chen, Wangchunshu Zhou, Haichao Zhu, Jiafeng Liang, Liping Shan, Ming Liu, Dongliang Xu, Qing Yang, Bing Qin
Abstract要約: 視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
参考スコア（独自算出の注目度）: 35.5601603013045
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite achieving remarkable performance on various vision-language tasks, Transformer-based Vision-Language Models (VLMs) suffer from redundancy in inputs and parameters, significantly hampering their efficiency in real-world applications. Moreover, the degree of redundancy in token representations and model parameters, such as attention heads, varies significantly for different inputs. In light of the challenges, we propose SmartTrim, an adaptive acceleration framework for VLMs, which adjusts the computational overhead per instance. Specifically, we integrate lightweight modules into the original backbone to identify and prune redundant token representations and attention heads within each layer. Furthermore, we devise a self-distillation strategy to enhance the consistency between the predictions of the pruned model and its fully-capacity counterpart. Experimental results across various vision-language tasks consistently demonstrate that SmartTrim accelerates the original model by 2-3 times with minimal performance degradation, highlighting the effectiveness and efficiency compared to previous approaches. Code will be available at https://github.com/kugwzk/SmartTrim.
Abstract（参考訳）: 様々な視覚言語タスクにおける顕著な性能にもかかわらず、トランスフォーマーベースの視覚言語モデル(VLM)は入力やパラメータの冗長性に悩まされ、現実世界のアプリケーションではその効率を著しく損なう。さらに、トークン表現とアテンションヘッドなどのモデルパラメータの冗長度は、異なる入力に対して大きく異なる。そこで本研究では,vlmsのための適応加速度フレームワークsmarttrimを提案する。具体的には、軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定してプルークする。さらに,プレナードモデルと完全容量モデルとの整合性を高めるための自己蒸留戦略を考案した。様々な視覚言語タスクに対する実験結果から、SmartTrimはパフォーマンスの低下を最小限に抑えながら、オリジナルのモデルを2～3倍加速し、従来のアプローチと比べての有効性と効率性を強調している。コードはhttps://github.com/kugwzk/smarttrimで入手できる。

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
Skip-Vision: Efficient and Scalable Acceleration of Vision-Language Models via Adaptive Token Skipping [13.846838416902575]
重要なボトルネックは、きめ細かい画像理解に必要な視覚トークンの拡散に起因する。視覚言語モデルにおけるトレーニングと推論の非効率性に対処する統合フレームワークであるSkip-Visionを提案する。実験の結果,Skip-Visionはトレーニング時間を最大35%短縮し,FLOPを75%,レイテンシを45%短縮した。
論文参考訳（メタデータ） (2025-03-26T04:16:48Z)
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models [85.51753014478315]
本稿では,新しいプラグ・アンド・プレイ・トレーニングフリープルーニング手法であるAdaptPruneを紹介する。空間距離とトークン類似性を適応的NMSアプローチと組み合わせることで、従来の注意に基づくプルーニングに基づいている。当社のアプローチはトークンの重要性を総合的に評価することを保証するとともに,プルーニング決定を大幅に改善する。
論文参考訳（メタデータ） (2025-03-11T03:58:17Z)
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文参考訳（メタデータ） (2024-10-23T11:31:06Z)
EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。 EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-02T23:00:31Z)
Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文参考訳（メタデータ） (2024-09-27T17:59:50Z)
Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。 1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文参考訳（メタデータ） (2024-09-16T05:31:01Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文参考訳（メタデータ） (2022-07-04T17:00:51Z)
MIA-Former: Efficient and Robust Vision Transformers via Multi-grained Input-Adaptation [14.866949449862226]
Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。入力適応型視覚変換フレームワークMIA-Formerを提案する。提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
論文参考訳（メタデータ） (2021-12-21T22:06:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。