論文の概要: HEAT: Head-level Parameter Efficient Adaptation of Vision Transformers with Taylor-expansion Importance Scores
- arxiv url: http://arxiv.org/abs/2404.08894v1
- Date: Sat, 13 Apr 2024 04:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:13:13.341998
- Title: HEAT: Head-level Parameter Efficient Adaptation of Vision Transformers with Taylor-expansion Importance Scores
- Title(参考訳): HEAT:Taylor-Expansion比重スコアを用いた視覚変換器の頭部パラメータ適応
- Authors: Yibo Zhong, Yao Zhou,
- Abstract要約: Taylor-Expansion importance score (HEAT) を用いた効率的な適応
Taylor-Expansion importance score (HEAT)による熱適応
Taylor-Expansion importance score (HEAT)による熱適応
- 参考スコア(独自算出の注目度): 6.068296063531189
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior computer vision research extensively explores adapting pre-trained vision transformers (ViT) to downstream tasks. However, the substantial number of parameters requiring adaptation has led to a focus on Parameter Efficient Transfer Learning (PETL) as an approach to efficiently adapt large pre-trained models by training only a subset of parameters, achieving both parameter and storage efficiency. Although the significantly reduced parameters have shown promising performance under transfer learning scenarios, the structural redundancy inherent in the model still leaves room for improvement, which warrants further investigation. In this paper, we propose Head-level Efficient Adaptation with Taylor-expansion importance score (HEAT): a simple method that efficiently fine-tuning ViTs at head levels. In particular, the first-order Taylor expansion is employed to calculate each head's importance score, termed Taylor-expansion Importance Score (TIS), indicating its contribution to specific tasks. Additionally, three strategies for calculating TIS have been employed to maximize the effectiveness of TIS. These strategies calculate TIS from different perspectives, reflecting varying contributions of parameters. Besides ViT, HEAT has also been applied to hierarchical transformers such as Swin Transformer, demonstrating its versatility across different transformer architectures. Through extensive experiments, HEAT has demonstrated superior performance over state-of-the-art PETL methods on the VTAB-1K benchmark.
- Abstract(参考訳): コンピュータビジョン以前の研究は、トレーニング済みの視覚変換器(ViT)を下流のタスクに適応させることを幅広く検討していた。
しかし、パラメータのサブセットのみをトレーニングし、パラメータと記憶効率を両立させることにより、大規模な事前学習モデルを効率的に適応するためのアプローチとして、PETL(Specer Efficient Transfer Learning)に焦点が当てられている。
大幅に削減されたパラメータは、転送学習シナリオ下での有望な性能を示しているが、モデルに固有の構造的冗長性は改善の余地を残しており、さらなる調査が保証されている。
本稿では,頭部レベルのVTを効率よく微調整する簡易な手法として,Taylor-Expansion importance score (HEAT) を用いた頭部効率適応法を提案する。
特に、Torylor拡張は、Torylor-expansion Importance Score (TIS)と呼ばれる各ヘッドの重要度を計算するために使用され、特定のタスクへの寄与を示す。
さらに、TISの有効性を最大化するために、TISを計算するための3つの戦略が採用されている。
これらの戦略は、パラメータの様々な貢献を反映して、異なる視点からTISを計算する。
ViT以外にも、HEATはSwin Transformerのような階層的なトランスフォーマーにも適用されており、異なるトランスフォーマーアーキテクチャ間の汎用性を実証している。
大規模な実験を通じて、HEATはVTAB-1Kベンチマークで最先端のPETL法よりも優れた性能を示した。
関連論文リスト
- Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法と比較すると、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Hierarchical Side-Tuning for Vision Transformers [34.55731467838914]
本稿では,種々の下流タスクへのVT転送を効果的に行う新しいPETL手法である階層側チューニング(HST)を提案する。
HSTを検証するために,分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,多様な視覚的タスクを含む広範な実験を行った。
VTAB-1kでは,0.78Mパラメータを微調整しながら,最先端の平均Top-1精度76.4%を実現した。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Exploring the Benefits of Differentially Private Pre-training and
Parameter-Efficient Fine-tuning for Table Transformers [56.00476706550681]
Table Transformer(TabTransformer)は最先端のニューラルネットワークモデルであり、差分プライバシ(DP)はデータのプライバシを確保する上で不可欠なコンポーネントである。
本稿では,これら2つの側面を組み合わせ,伝達学習のシナリオで組み合わせることのメリットについて考察する。
論文 参考訳(メタデータ) (2023-09-12T19:08:26Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。
U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文 参考訳(メタデータ) (2023-03-01T17:38:03Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。