論文の概要: SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.15033v2
- Date: Mon, 26 Feb 2024 15:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:58:38.086941
- Title: SmartTrim: Adaptive Tokens and Attention Pruning for Efficient
Vision-Language Models
- Title(参考訳): SmartTrim: 効率的なビジョンランゲージモデルのための適応型トークンとアテンションプルーニング
- Authors: Zekun Wang, Jingchang Chen, Wangchunshu Zhou, Haichao Zhu, Jiafeng
Liang, Liping Shan, Ming Liu, Dongliang Xu, Qing Yang, Bing Qin
- Abstract要約: 視覚言語モデル(VLM)のための適応加速度フレームワークであるSmartTrimを提案する。
軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定し、実行します。
我々は,プレナードモデルの予測と完全容量との整合性を高めるための自己蒸留戦略を考案した。
- 参考スコア(独自算出の注目度): 35.5601603013045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving remarkable performance on various vision-language tasks,
Transformer-based Vision-Language Models (VLMs) suffer from redundancy in
inputs and parameters, significantly hampering their efficiency in real-world
applications. Moreover, the degree of redundancy in token representations and
model parameters, such as attention heads, varies significantly for different
inputs. In light of the challenges, we propose SmartTrim, an adaptive
acceleration framework for VLMs, which adjusts the computational overhead per
instance. Specifically, we integrate lightweight modules into the original
backbone to identify and prune redundant token representations and attention
heads within each layer. Furthermore, we devise a self-distillation strategy to
enhance the consistency between the predictions of the pruned model and its
fully-capacity counterpart. Experimental results across various vision-language
tasks consistently demonstrate that SmartTrim accelerates the original model by
2-3 times with minimal performance degradation, highlighting the effectiveness
and efficiency compared to previous approaches. Code will be available at
https://github.com/kugwzk/SmartTrim.
- Abstract(参考訳): 様々な視覚言語タスクにおける顕著な性能にもかかわらず、トランスフォーマーベースの視覚言語モデル(VLM)は入力やパラメータの冗長性に悩まされ、現実世界のアプリケーションではその効率を著しく損なう。
さらに、トークン表現とアテンションヘッドなどのモデルパラメータの冗長度は、異なる入力に対して大きく異なる。
そこで本研究では,vlmsのための適応加速度フレームワークsmarttrimを提案する。
具体的には、軽量なモジュールを元のバックボーンに統合し、各レイヤ内で冗長なトークン表現とアテンションヘッドを特定してプルークする。
さらに,プレナードモデルと完全容量モデルとの整合性を高めるための自己蒸留戦略を考案した。
様々な視覚言語タスクに対する実験結果から、SmartTrimはパフォーマンスの低下を最小限に抑えながら、オリジナルのモデルを2~3倍加速し、従来のアプローチと比べての有効性と効率性を強調している。
コードはhttps://github.com/kugwzk/smarttrimで入手できる。
関連論文リスト
- Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Forging Tokens for Improved Storage-efficient Training [39.64859737970321]
SeiTは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案している。
TokenAdaptとColorAdaptを紹介します。
我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ロバストネスベンチマーク,ADE-20kセマンティックセマンティックセグメンテーションなど,さまざまなシナリオにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Efficient Transformer-based 3D Object Detection with Dynamic Token
Halting [19.88560740238657]
本稿では,異なる層でトークンを動的に停止させることにより,トランスフォーマーを用いた3次元物体検出器の高速化に有効な手法を提案する。
トークンの停止は微分不可能な操作であるが,本手法はエンドツーエンドの学習を可能にする。
我々のフレームワークでは、停止トークンを再利用して、簡単なトークンリサイクル機構を通じてモデルの予測を知らせることができます。
論文 参考訳(メタデータ) (2023-03-09T07:26:49Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation [14.866949449862226]
Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。
入力適応型視覚変換フレームワークMIA-Formerを提案する。
提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
論文 参考訳(メタデータ) (2021-12-21T22:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。