論文の概要: Convolutional Bypasses Are Better Vision Transformer Adapters
- arxiv url: http://arxiv.org/abs/2207.07039v2
- Date: Mon, 18 Jul 2022 17:48:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-19 11:25:38.601352
- Title: Convolutional Bypasses Are Better Vision Transformer Adapters
- Title(参考訳): 畳み込みバイパスはより良い視覚トランスフォーマーアダプターです
- Authors: Shibo Jie and Zhi-Hong Deng
- Abstract要約: 視覚変換器(ViT)のサイズが指数関数的に大きくなるにつれて、より重い記憶オーバーヘッドの観点から完全な微調整が禁止される。
近年の研究では、トレーニング済みのViTに軽量適応モジュールを挿入し、トレーニング済みの重みが凍結されている間にのみそれらのモジュールを微調整する試みが行われている。
本稿では,ViT の適応モジュールとして Convolutional Bypasses (Convpass) を構築することを提案する。
- 参考スコア(独自算出の注目度): 14.993203705812654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The pretrain-then-finetune paradigm has been widely adopted in computer
vision. But as the size of Vision Transformer (ViT) grows exponentially, the
full finetuning becomes prohibitive in view of the heavier storage overhead.
Motivated by parameter-efficient transfer learning (PETL) on language
transformers, recent studies attempt to insert lightweight adaptation modules
(e.g., adapter layers or prompt tokens) to pretrained ViT and only finetune
these modules while the pretrained weights are frozen. However, these modules
were originally proposed to finetune language models. Although ported well to
ViT, their design lacks prior knowledge for visual tasks. In this paper, we
propose to construct Convolutional Bypasses (Convpass) in ViT as adaptation
modules, introducing only a small amount (less than 0.5% of model parameters)
of trainable parameters to adapt the large ViT. Different from other PETL
methods, Convpass benefits from the hard-coded inductive bias of convolutional
layers and thus is more suitable for visual tasks, especially in the low-data
regime. Experimental results on VTAB-1k benchmark and few-shot learning
datasets demonstrate that Convpass outperforms current language-oriented
adaptation modules, demonstrating the necessity to tailor vision-oriented
adaptation modules for vision models.
- Abstract(参考訳): Pretrain-then-finetuneパラダイムはコンピュータビジョンで広く採用されている。
しかし、ViT(Vision Transformer)のサイズが指数関数的に大きくなるにつれて、ストレージのオーバーヘッドが重いため、完全な微調整は禁止される。
言語トランスフォーマー上のパラメータ効率変換学習(PETL)によって動機付けられた最近の研究は、事前訓練されたViTに軽量適応モジュール(アダプタ層やプロンプトトークンなど)を挿入し、事前訓練された重みが凍結されている間にのみこれらのモジュールを微調整する。
しかし、これらのモジュールはもともと言語モデルを微調整するために提案された。
vitにうまく移植できたが、その設計にはビジュアルタスクの事前知識が欠けている。
本稿では,適応モジュールとしてViTに畳み込みバイパス(Convpass)を構築することを提案する。
他のPETL法とは異なり、Convpassは畳み込み層のハードコードによる帰納バイアスの恩恵を受けており、特に低データ構造において視覚的タスクに適している。
VTAB-1kベンチマークと数ショットの学習データセットの実験結果は、Convpassが現在の言語指向適応モジュールより優れており、視覚モデルのための視覚指向適応モジュールを調整する必要があることを示している。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Selective Feature Adapter for Dense Vision Transformers [30.409313135985528]
選択的機能アダプタ(SFA)は、様々な密集タスクにわたる完全な微調整モデルよりも同等または優れたパフォーマンスを達成する。
SFAは外部アダプタと内部アダプタで構成され、トランスフォーマーモデル上で順次操作される。
実験により、双対アダプタモジュールであるSFAは、高密度視覚タスクにおける最良のトレードオフを達成するために不可欠であることが示されている。
論文 参考訳(メタデータ) (2023-10-03T07:17:58Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - AdaptFormer: Adapting Vision Transformers for Scalable Visual
Recognition [39.443380221227166]
本稿では,Transformerの効果的な適応手法,すなわちAdaptFormerを提案する。
トレーニング済みのViTを、さまざまな画像やビデオタスクに効率的に適応させることができる。
オリジナルのトレーニング済みパラメータを更新することなく、ViTの転送可能性を向上させることができる。
論文 参考訳(メタデータ) (2022-05-26T17:56:15Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - ViTAE: Vision Transformer Advanced by Exploring Intrinsic Inductive Bias [76.16156833138038]
コンボリューション, ie, ViTAEから内在性IBを探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
各トランス層では、ViTAEはマルチヘッド自己保持モジュールと平行な畳み込みブロックを持ち、その特徴は融合されフィードフォワードネットワークに供給される。
論文 参考訳(メタデータ) (2021-06-07T05:31:06Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。