論文の概要: Selective Feature Adapter for Dense Vision Transformers
- arxiv url: http://arxiv.org/abs/2310.01843v1
- Date: Tue, 3 Oct 2023 07:17:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 17:17:02.074103
- Title: Selective Feature Adapter for Dense Vision Transformers
- Title(参考訳): ディエンス・ビジョン・トランスのための選択的特徴適応器
- Authors: Xueqing Deng, Qi Fan, Xiaojie Jin, Linjie Yang and Peng Wang
- Abstract要約: 選択的機能アダプタ(SFA)は、様々な密集タスクにわたる完全な微調整モデルよりも同等または優れたパフォーマンスを達成する。
SFAは外部アダプタと内部アダプタで構成され、トランスフォーマーモデル上で順次操作される。
実験により、双対アダプタモジュールであるSFAは、高密度視覚タスクにおける最良のトレードオフを達成するために不可欠であることが示されている。
- 参考スコア(独自算出の注目度): 30.409313135985528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pre-trained transformer models, e.g., Swin Transformer, are
successful in numerous downstream for dense prediction vision tasks. However,
one major issue is the cost/storage of their huge amount of parameters, which
becomes increasingly challenging to handle with the growing amount of vision
tasks. In this paper, we propose an effective approach to alleviate the issue,
namely selective feature adapter (SFA). It achieves state-of-the-art (SoTA)
performance under any given budget of trainable parameters, and demonstrates
comparable or better performance than fully fine-tuned models across various
dense tasks. Specifically, SFA consists of external adapters and internal
adapters which are sequentially operated over a transformer model. For external
adapters, we properly select the places and amount of additional multilayer
perception (MLP). For internal adapters, we transform a few task-important
parameters inside the transformer, which are automatically discovered through a
simple yet effective lottery ticket algorithm. Our experiments show that the
dual adapter module, a.k.a SFA, is essential to achieve the best trade-off on
dense vision tasks, such as segmentation, detection and depth-estimation,
outperforming other adapters with a single module.
- Abstract(参考訳): 微調整事前訓練されたトランスモデル、例えばSwin Transformerは、高密度な予測ビジョンタスクのために多くの下流で成功している。
しかし、大きな課題の1つは、膨大な量のパラメータのコスト/保存であり、増大するビジョンタスクに対処することがますます困難になっている。
本稿では,この問題を軽減するための効果的なアプローチ,すなわちsfa(selective feature adapter)を提案する。
トレーニング可能なパラメータの任意の予算下で最先端(sota)のパフォーマンスを達成し、さまざまな密集したタスクをまたいだ完全な微調整モデルと同等あるいは優れたパフォーマンスを示す。
具体的には、SFAは外部アダプタと内部アダプタで構成され、トランスモデルを順次操作する。
外部アダプタについては、追加多層知覚(mlp)の位置と量を適切に選択する。
内部アダプタの場合、変換器内のタスク重要パラメータを変換し、単純だが効果的な抽選チケットアルゴリズムによって自動的に検出する。
本実験では,デュアルアダプタモジュールである a.k.a sfa が,セグメンテーションや検出,奥行き推定などの密集した視覚タスクにおける最善のトレードオフを達成する上で不可欠であることを示す。
関連論文リスト
- PETAH: Parameter Efficient Task Adaptation for Hybrid Transformers in a resource-limited Context [9.235131774252416]
本稿では,Hybrid Transformer のタスク適応性能向上と PETAH: Efficient Task Adaptation for Hybrid Transformer の導入について述べる。
我々のPETAH適応ハイブリッドモデルは、パラメータを少なくし、モバイルハードウェアでより効率的であると同時に、ViTのタスク適応技術よりも優れています。
論文 参考訳(メタデータ) (2024-10-23T08:24:47Z) - Mini but Mighty: Finetuning ViTs with Mini Adapters [7.175668563148084]
アダプタの寸法が小さい場合、アダプタは性能が悪くなります。
この問題に対処するトレーニングフレームワークMiMiを提案する。
本手法は,精度と訓練されたパラメータの最良のトレードオフを見つける上で,既存の手法よりも優れている。
論文 参考訳(メタデータ) (2023-11-07T10:41:27Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - AdaMix: Mixture-of-Adapter for Parameter-efficient Tuning of Large
Language Models [119.7093605087114]
大規模なトレーニング済み言語モデルをダウンストリームタスクに微調整するには、数億のパラメータを更新する必要がある。
これにより、各タスクのモデルの重みの大量コピーを格納するためのサービスコストが増大するだけでなく、数発のタスク適応中に不安定を示す。
パラメータや計算コストを2つの重要な手法で増大させることなく、アダプタ容量を改善するための新しいメカニズムを導入する。
論文 参考訳(メタデータ) (2022-05-24T23:41:22Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Plug-In Inversion: Model-Agnostic Inversion for Vision with Data
Augmentations [61.95114821573875]
単純な拡張セットに依存し、過剰なハイパーパラメータチューニングを必要としないPlug-In Inversionを導入する。
ImageNetデータセットでトレーニングされたビジョントランスフォーマー(ViT)とマルチ層パーセプトロン(MLP)を反転させることにより,我々のアプローチの実用性を説明する。
論文 参考訳(メタデータ) (2022-01-31T02:12:45Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。