論文の概要: How to prepare your task head for finetuning
- arxiv url: http://arxiv.org/abs/2302.05779v1
- Date: Sat, 11 Feb 2023 20:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:32:32.985304
- Title: How to prepare your task head for finetuning
- Title(参考訳): 微調整のためのタスクヘッドの用意方法
- Authors: Yi Ren, Shangmin Guo, Wonho Bae, Danica J. Sutherland
- Abstract要約: ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。
タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。
タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。
- 参考スコア(独自算出の注目度): 11.224501003009879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning, transferring information from a pretrained network to a
downstream task by finetuning has many benefits. The choice of task head plays
an important role in fine-tuning, as the pretrained and downstream tasks are
usually different. Although there exist many different designs for finetuning,
a full understanding of when and why these algorithms work has been elusive. We
analyze how the choice of task head controls feature adaptation and hence
influences the downstream performance. By decomposing the learning dynamics of
adaptation, we find that the key aspect is the training accuracy and loss at
the beginning of finetuning, which determines the "energy" available for the
feature's adaptation. We identify a significant trend in the effect of changes
in this initial energy on the resulting features after fine-tuning.
Specifically, as the energy increases, the Euclidean and cosine distances
between the resulting and original features increase, while their dot products
(and the resulting features' norm) first increase and then decrease. Inspired
by this, we give several practical principles that lead to better downstream
performance. We analytically prove this trend in an overparamterized linear
setting and verify its applicability to different experimental settings.
- Abstract(参考訳): ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。
タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。
ファインタニングには様々な設計があるが、これらのアルゴリズムがいつ、なぜ機能するのかが完全に理解されている。
タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。
適応の学習力学を分解することにより、重要な側面は微調整の開始時の訓練精度と損失であり、特徴の適応に利用可能な「エネルギー」を決定する。
我々は,この初期エネルギーの変化が微調整後の特徴に与える影響の顕著な傾向を明らかにした。
具体的には、エネルギーが増加するにつれて、結果として得られる特徴と元の特徴の間のユークリッドと余弦距離が増加し、ドット積(および結果として生じる特徴のノルム)が最初に増加し、減少する。
これに触発されて、下流のパフォーマンスを改善するための実践的な原則をいくつか提供します。
この傾向を超並列線形設定で解析的に証明し, 異なる実験環境に適用可能であることを検証した。
関連論文リスト
- What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Implicit regularization of multi-task learning and finetuning in
overparameterized neural networks [0.0]
複数タスクの同時学習(マルチタスク学習、MTL)または逐次学習(事前学習、その後の微調整、PT+FT)による帰納的バイアスについて検討する。
PT+FTは, いずれの体制にも適用されず, 事前訓練中に学習した特徴の少ない部分集合を抽出する, 新たな「ネストされた特徴選択」行動を示すことができることを示す。
その結果、補助的なタスク学習の影響に光を当て、より効果的に活用する方法を提案する。
論文 参考訳(メタデータ) (2023-10-03T19:39:30Z) - Fine-tuning can cripple your foundation model; preserving features may
be the solution [95.43355875644302]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
本稿では,モデルが事前学習した知識を保存できる「textitLDIFS$」というファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Muppet: Massive Multi-task Representations with Pre-Finetuning [43.9101576877044]
事前調整は、事前訓練された判別器および生成モデルのパフォーマンスを一貫して改善することを示す。
我々はまた、大規模なマルチタスクが重要であることも示しています。事前調整は、重要なポイントまでタスクがほとんど使用されない場合にパフォーマンスを損なう可能性があります。
論文 参考訳(メタデータ) (2021-01-26T19:18:27Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。