論文の概要: SmartTrim: Adaptive Tokens and Parameters Pruning for Efficient
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2305.15033v1
- Date: Wed, 24 May 2023 11:18:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:37:06.767302
- Title: SmartTrim: Adaptive Tokens and Parameters Pruning for Efficient
Vision-Language Models
- Title(参考訳): SmartTrim: 効率的なビジョンランゲージモデルのための適応トークンとパラメータプランニング
- Authors: Zekun Wang, Jingchang Chen, Wangchunshu Zhou, Ming Liu, Bing Qin
- Abstract要約: トランスフォーマーベースの事前訓練された視覚言語モデル(VLM)は、長い入力と多くのパラメータから生じる効率の問題に悩まされている。
本稿では,VLMにおけるSmartTrimを適応的に高速化する手法を提案する。
- 参考スコア(独自算出の注目度): 25.350992369300418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite achieving remarkable performance on various vision-language tasks,
Transformer-based pretrained vision-language models (VLMs) still suffer from
efficiency issues arising from long inputs and numerous parameters, limiting
their real-world applications. However, the huge computation is redundant for
most samples and the degree of redundancy and the respective components vary
significantly depending on tasks and input instances. In this work, we propose
an adaptive acceleration method SmartTrim for VLMs, which adjusts the inference
overhead based on the complexity of instances. Specifically, SmartTrim
incorporates lightweight trimming modules into the backbone to perform
task-specific pruning on redundant inputs and parameters, without the need for
additional pre-training or data augmentation. Since visual and textual
representations complement each other in VLMs, we propose to leverage
cross-modal interaction information to provide more critical semantic guidance
for identifying redundant parts. Meanwhile, we introduce a self-distillation
strategy that encourages the trimmed model to be consistent with the
full-capacity model, which yields further performance gains. Experimental
results demonstrate that SmartTrim significantly reduces the computation
overhead (2-3 times) of various VLMs with comparable performance (only a 1-2%
degradation) on various vision-language tasks. Compared to previous
acceleration methods, SmartTrim attains a better efficiency-performance
trade-off, demonstrating great potential for application in
resource-constrained scenarios.
- Abstract(参考訳): 様々な視覚言語タスクにおける顕著な性能にもかかわらず、トランスフォーマーベースの事前訓練された視覚言語モデル(VLM)は、長い入力と多数のパラメータから生じる効率の問題に悩まされ、現実の応用が制限されている。
しかし、ほとんどのサンプルでは巨大な計算は冗長であり、冗長性の程度と各コンポーネントはタスクや入力インスタンスによって大きく異なる。
そこで本研究では,VLMのための適応加速度法SmartTrimを提案する。
具体的には、SmartTrimは軽量トリミングモジュールをバックボーンに組み込んで、追加の事前トレーニングやデータ拡張を必要とせずに、冗長な入力とパラメータでタスク固有のプルーニングを実行する。
視覚表現とテキスト表現はvlmで相互補完するので,クロスモーダルなインタラクション情報を利用して冗長な部分を特定するためのより重要な意味的ガイダンスを提供する。
一方,本研究では,トリミングモデルとフル容量モデルとの整合性を奨励し,さらなる性能向上をもたらす自己蒸留戦略を導入する。
実験結果から,SmartTrimは視覚言語タスクにおいて,VLMの計算オーバーヘッド(2~3倍)を大幅に低減し,その性能は1~2%しか低下しないことがわかった。
従来のアクセラレーション手法と比較して、SmartTrimはより良い効率と性能のトレードオフを実現し、リソース制約のあるシナリオに適用する可能性を示している。
関連論文リスト
- RESSA: Repair Sparse Vision-Language Models via Sparse Cross-Modality Adaptation [38.62539028454178]
Sparse Cross-modality Adaptation (RESSA) によるスパース視覚言語モデルの修復を提案する。
RESSAはクロスモダリティの微調整を利用してタスク固有の性能を高め、元の高密度モデルからの知識蒸留を促進する。
また、SparseLoRAを導入し、LoRA重みに直接スパシティを適用し、スパースモデルとのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-04-03T03:27:01Z) - Evaluating the Efficacy of Prompt-Engineered Large Multimodal Models Versus Fine-Tuned Vision Transformers in Image-Based Security Applications [2.8161155726745237]
本稿では,重要なセキュリティ問題に対処するために,Gemini-pro LMMと微調整型視覚変換器(ViT)モデルの有効性について検討する。
画像中の小さな正方形、潜在的なバックドアの表示、視覚的表現によるマルウェア分類の非視覚的に明らかなタスクなど、視覚的に明らかな単純なトリガーを検出する2つのタスクに焦点をあてる。
Gemini-proは細調整されたViTモデルと比較して精度と信頼性が低い。
論文 参考訳(メタデータ) (2024-03-26T15:20:49Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - MIA-Former: Efficient and Robust Vision Transformers via Multi-grained
Input-Adaptation [14.866949449862226]
Vision Transformer (ViT) モデルは、現実のリソース制約されたデバイスに組み込むには計算コストがかかりすぎる。
入力適応型視覚変換フレームワークMIA-Formerを提案する。
提案するMIA-Formerフレームワークは,入力画像の難易度に適応した予算を効果的に配分できることを確認した。
論文 参考訳(メタデータ) (2021-12-21T22:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。