論文の概要: Towards Efficient Visual Adaption via Structural Re-parameterization
- arxiv url: http://arxiv.org/abs/2302.08106v2
- Date: Tue, 21 Mar 2023 02:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 23:56:08.747996
- Title: Towards Efficient Visual Adaption via Structural Re-parameterization
- Title(参考訳): 構造再パラメータ化による視覚的適応の効率化
- Authors: Gen Luo, Minglang Huang, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang,
Zhiyu Wang and Rongrong Ji
- Abstract要約: 本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
- 参考スコア(独自算出の注目度): 76.57083043547296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient transfer learning (PETL) is an emerging research spot
aimed at inexpensively adapting large-scale pre-trained models to downstream
tasks. Recent advances have achieved great success in saving storage costs for
various pre-trained models by updating a small number of parameters instead of
full tuning. However, we notice that most existing PETL methods still incur
non-negligible latency during inference. In this paper, we propose a
parameter-efficient and computational friendly adapter for giant vision models,
called RepAdapter. Specifically, we first prove that common adaptation modules
can also be seamlessly integrated into most giant vision models via our
structural re-parameterization, thereby achieving zero-cost during inference.
We then investigate the sparse design and effective placement of adapter
structure, helping our RepAdaper obtain other advantages in terms of parameter
efficiency and performance. To validate RepAdapter, we conduct extensive
experiments on 27 benchmark datasets of three vision tasks, i.e., image and
video classifications and semantic segmentation. Experimental results show the
superior performance and efficiency of RepAdapter than the state-of-the-art
PETL methods. For instance, RepAdapter outperforms full tuning by +7.2% on
average and saves up to 25% training time, 20% GPU memory, and 94.6% storage
cost of ViT-B/16 on VTAB-1k. The generalization ability of RepAdapter is also
well validated by a bunch of vision models. Our source code is released at
https://github.com/luogen1996/RepAdapter.
- Abstract(参考訳): パラメータ効率変換学習(PETL)は,大規模事前学習モデルを下流タスクに安価に適応することを目的とした,新たな研究分野である。
最近の進歩は、フルチューニングの代わりに少数のパラメータを更新することで、様々な事前訓練されたモデルのストレージコストを節約することに成功した。
しかし,既存のPETL法の多くは,まだ推論中に無視できない遅延が発生している。
本稿では,RepAdapter と呼ばれる巨大視覚モデルに対するパラメータ効率・計算対応アダプタを提案する。
具体的には、我々の構造的再パラメータ化によって、一般的な適応モジュールがほとんどの巨大なビジョンモデルにシームレスに統合できることを最初に証明します。
次に,アダプタ構造のスパース設計と効果的な配置について検討し,パラメータ効率と性能の面での他の利点を得るのに役立つ。
RepAdapterを検証するために、画像とビデオの分類とセマンティックセグメンテーションという3つの視覚タスクの27のベンチマークデータセットについて広範な実験を行った。
実験結果から,RepAdapterの性能と効率は現状のPETL法よりも優れていた。
例えばrepadapterは、フルチューニングを平均で7.2%上回り、最大25%のトレーニング時間、20%のgpuメモリ、94.6%のvtab-1kでのvit-b/16ストレージコストを節約する。
RepAdapterの一般化能力も、多くのビジョンモデルによってよく検証されている。
ソースコードはhttps://github.com/luogen1996/repadapterで公開しています。
関連論文リスト
- Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Revisiting the Parameter Efficiency of Adapters from the Perspective of
Precision Redundancy [17.203320079872952]
コンピュータビジョンにおける現在の最先端の結果は、部分的に微調整された大規模な事前学習された視覚モデルに依存している。
モデルサイズが指数関数的に増大するにつれて、従来のフル微調整はストレージと送信オーバーヘッドを増大させる。
本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズに到達し,アダプタをさらに効率的にする方法を検討する。
論文 参考訳(メタデータ) (2023-07-31T17:22:17Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Parameter-Efficient Sparse Retrievers and Rerankers using Adapters [4.9545244468634655]
本研究では,スパースレトリバーであるSPLADEのアダプタについて検討する。
また、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応にも対処する。
論文 参考訳(メタデータ) (2023-03-23T12:34:30Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。