論文の概要: Towards Efficient Visual Adaption via Structural Re-parameterization
- arxiv url: http://arxiv.org/abs/2302.08106v1
- Date: Thu, 16 Feb 2023 06:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-17 14:42:30.701873
- Title: Towards Efficient Visual Adaption via Structural Re-parameterization
- Title(参考訳): 構造再パラメータ化による視覚的適応の効率化
- Authors: Gen Luo, Minglang Huang, Yiyi Zhou, Xiaoshuai Sun, Guannan Jiang,
Zhiyu Wang and Rongrong Ji
- Abstract要約: RepAdapterは、巨大な視覚モデルのためのパラメータ効率の良いアダプタである。
RepAdapterは既存のPETLメソッドよりも効率的で軽量である。
- 参考スコア(独自算出の注目度): 76.57083043547296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient transfer learning (PETL) is an emerging research spot
aimed at inexpensively adapting large-scale pre-trained models to downstream
tasks. Recent advances have achieved great success in saving storage costs for
various vision tasks by updating or injecting a small number of parameters
instead of full fine-tuning. However, we notice that most existing PETL methods
still incur non-negligible latency during inference. In this paper, we propose
a parameter-efficient and computationally friendly adapter for giant vision
models, called RepAdapter. Specifically, we prove that the adaption modules,
even with a complex structure, can be seamlessly integrated into most giant
vision models via structural re-parameterization. This property makes
RepAdapter zero-cost during inference. In addition to computation efficiency,
RepAdapter is more effective and lightweight than existing PETL methods due to
its sparse structure and our careful deployment. To validate RepAdapter, we
conduct extensive experiments on 27 benchmark datasets of three vision tasks,
i.e., image and video classifications and semantic segmentation. Experimental
results show the superior performance and efficiency of RepAdapter than the
state-of-the-art PETL methods. For instance, by updating only 0.6% parameters,
we can improve the performance of ViT from 38.8 to 55.1 on Sun397. Its
generalizability is also well validated by a bunch of vision models, i.e., ViT,
CLIP, Swin-Transformer and ConvNeXt. Our source code is released at
https://github.com/luogen1996/RepAdapter.
- Abstract(参考訳): パラメータ効率変換学習(PETL)は,大規模事前学習モデルを下流タスクに安価に適応することを目的とした,新たな研究分野である。
近年の進歩は、完全な微調整ではなく、少数のパラメータを更新または注入することで、様々な視覚タスクの保存コストの削減に大きな成功を収めている。
しかし,既存のPETL法の多くは,まだ推論中に無視できない遅延が発生している。
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対するパラメータ効率と計算に優しいアダプタを提案する。
具体的には、複雑な構造であっても、適応モジュールが構造的再パラメータ化によってほとんどの巨大な視覚モデルにシームレスに統合できることを証明する。
このプロパティは推論中にRepAdapterをゼロコストにする。
計算効率に加えて、RepAdapterはスパース構造と慎重な配置のため、既存のPETL法よりも効率的で軽量である。
RepAdapterを検証するために、画像とビデオの分類とセマンティックセグメンテーションという3つの視覚タスクの27のベンチマークデータセットについて広範な実験を行った。
実験結果から,RepAdapterの性能と効率は現状のPETL法よりも優れていた。
例えば、わずか0.6%のパラメータを更新することで、Sun397上でのViTのパフォーマンスを38.8から55.1に改善できる。
その一般化性は、ViT、CLIP、Swin-Transformer、ConvNeXtといったビジョンモデルでもよく検証されている。
ソースコードはhttps://github.com/luogen1996/repadapterで公開しています。
関連論文リスト
- Dyn-Adapter: Towards Disentangled Representation for Efficient Visual Recognition [22.615830919860777]
本稿では動的アダプタ(Dyn-Adapter)という,効率的な視覚認識パラダイムを提案する。
適応的なトレーニング戦略とともに,複数レベルの特徴抽出のための早期のバランスの取れた動的アーキテクチャを考案する。
予測中のFLOPを50%削減し,高い認識精度を維持した。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Revisiting the Parameter Efficiency of Adapters from the Perspective of
Precision Redundancy [17.203320079872952]
コンピュータビジョンにおける現在の最先端の結果は、部分的に微調整された大規模な事前学習された視覚モデルに依存している。
モデルサイズが指数関数的に増大するにつれて、従来のフル微調整はストレージと送信オーバーヘッドを増大させる。
本稿では,タスク固有の細調整ネットワークを格納するために必要な最小限のサイズに到達し,アダプタをさらに効率的にする方法を検討する。
論文 参考訳(メタデータ) (2023-07-31T17:22:17Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Parameter-Efficient Sparse Retrievers and Rerankers using Adapters [4.9545244468634655]
本研究では,スパースレトリバーであるSPLADEのアダプタについて検討する。
また、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応にも対処する。
論文 参考訳(メタデータ) (2023-03-23T12:34:30Z) - UniAdapter: Unified Parameter-Efficient Transfer Learning for
Cross-modal Modeling [49.134517040512414]
本論文では,UniAdapterを提案する。UniAdapterは,視覚言語モデルに対するパラメータ効率のよいクロスモーダル適応のための,ユニモーダルおよびマルチモーダルアダプタを統一する。
実験によると、UniAdapterは最先端技術を上回るだけでなく、完全な微調整戦略に勝っている。
論文 参考訳(メタデータ) (2023-02-13T18:59:10Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。