論文の概要: FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer
- arxiv url: http://arxiv.org/abs/2212.03145v2
- Date: Sat, 10 Jun 2023 08:20:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 02:01:20.865085
- Title: FacT: Factor-Tuning for Lightweight Adaptation on Vision Transformer
- Title(参考訳): FacT:視覚変換器の軽量適応のための因子調整
- Authors: Shibo Jie, Zhi-Hong Deng
- Abstract要約: 最近の研究は、いくつかのパラメータを更新することで、事前訓練された視覚変換器(ViT)に適応する可能性を探っている。
現在のPETL法では、パラメータの0.5%だけをチューニングすることで、ViTは完全な微調整よりもより優れたパフォーマンスでダウンストリームタスクに適応できることが示されている。
トレーニング可能なパラメータは8K(ViTのパラメータの0.01%)しか使用していないが、フル微調整や他のPETLメソッドよりも優れている小さなバージョンを提示する。
- 参考スコア(独自算出の注目度): 14.993203705812654
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recent work has explored the potential to adapt a pre-trained vision
transformer (ViT) by updating only a few parameters so as to improve storage
efficiency, called parameter-efficient transfer learning (PETL). Current PETL
methods have shown that by tuning only 0.5% of the parameters, ViT can be
adapted to downstream tasks with even better performance than full fine-tuning.
In this paper, we aim to further promote the efficiency of PETL to meet the
extreme storage constraint in real-world applications. To this end, we propose
a tensorization-decomposition framework to store the weight increments, in
which the weights of each ViT are tensorized into a single 3D tensor, and their
increments are then decomposed into lightweight factors. In the fine-tuning
process, only the factors need to be updated and stored, termed Factor-Tuning
(FacT). On VTAB-1K benchmark, our method performs on par with NOAH, the
state-of-the-art PETL method, while being 5x more parameter-efficient. We also
present a tiny version that only uses 8K (0.01% of ViT's parameters) trainable
parameters but outperforms full fine-tuning and many other PETL methods such as
VPT and BitFit. In few-shot settings, FacT also beats all PETL baselines using
the fewest parameters, demonstrating its strong capability in the low-data
regime.
- Abstract(参考訳): 最近の研究は、パラメータ効率を向上させるために少数のパラメータを更新することで、事前訓練された視覚変換器(ViT)に適応する可能性を探っている。
現在のpetl手法では、パラメータのわずか0.5%をチューニングすることで、vitは完全な微調整よりも優れたパフォーマンスで下流タスクに適応できることが示されている。
本稿では,実世界のアプリケーションにおける極端なストレージ制約を満たすため,PETLの効率をさらに向上することを目的とする。
この目的のために,各vitの重みを1つの3次元テンソルにテンソル化し,その重みを軽量な因子に分解する,重みを格納するテンソル化分解フレームワークを提案する。
微調整プロセスでは、FacT(Facter-Tuning)と呼ばれる要素のみを更新、保存する必要がある。
VTAB-1Kベンチマークでは,提案手法は5倍のパラメータ効率を有しつつ,最先端PETL法であるNOAHと同等に動作する。
また、トレーニング可能なパラメータは8K(ViTのパラメータの0.01%)しか使用していないが、完全な微調整やVPTやBitFitといったPETLメソッドよりも優れています。
少数の設定では、FacTは最も少ないパラメータを使ってPETLベースラインを全て破り、低データのレシエーションにおいてその強みを示す。
関連論文リスト
- ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Aggregate, Decompose, and Fine-Tune: A Simple Yet Effective
Factor-Tuning Method for Vision Transformer [0.0]
EFFT (EFfective Factor-Tuning) は単純で効果的な微調整法である。
VTAB-1Kデータセット内では、EFFTはすべてのベースラインを超え、最先端のパフォーマンスを実現しています。
EFFTの単純さと有効性を考えると、基礎ベンチマークとして機能する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-12T06:23:33Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。