論文の概要: How to prepare your task head for finetuning
- arxiv url: http://arxiv.org/abs/2302.05779v1
- Date: Sat, 11 Feb 2023 20:50:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:32:32.985304
- Title: How to prepare your task head for finetuning
- Title(参考訳): 微調整のためのタスクヘッドの用意方法
- Authors: Yi Ren, Shangmin Guo, Wonho Bae, Danica J. Sutherland
- Abstract要約: ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。
タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。
タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。
- 参考スコア(独自算出の注目度): 11.224501003009879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning, transferring information from a pretrained network to a
downstream task by finetuning has many benefits. The choice of task head plays
an important role in fine-tuning, as the pretrained and downstream tasks are
usually different. Although there exist many different designs for finetuning,
a full understanding of when and why these algorithms work has been elusive. We
analyze how the choice of task head controls feature adaptation and hence
influences the downstream performance. By decomposing the learning dynamics of
adaptation, we find that the key aspect is the training accuracy and loss at
the beginning of finetuning, which determines the "energy" available for the
feature's adaptation. We identify a significant trend in the effect of changes
in this initial energy on the resulting features after fine-tuning.
Specifically, as the energy increases, the Euclidean and cosine distances
between the resulting and original features increase, while their dot products
(and the resulting features' norm) first increase and then decrease. Inspired
by this, we give several practical principles that lead to better downstream
performance. We analytically prove this trend in an overparamterized linear
setting and verify its applicability to different experimental settings.
- Abstract(参考訳): ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。
タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。
ファインタニングには様々な設計があるが、これらのアルゴリズムがいつ、なぜ機能するのかが完全に理解されている。
タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。
適応の学習力学を分解することにより、重要な側面は微調整の開始時の訓練精度と損失であり、特徴の適応に利用可能な「エネルギー」を決定する。
我々は,この初期エネルギーの変化が微調整後の特徴に与える影響の顕著な傾向を明らかにした。
具体的には、エネルギーが増加するにつれて、結果として得られる特徴と元の特徴の間のユークリッドと余弦距離が増加し、ドット積(および結果として生じる特徴のノルム)が最初に増加し、減少する。
これに触発されて、下流のパフォーマンスを改善するための実践的な原則をいくつか提供します。
この傾向を超並列線形設定で解析的に証明し, 異なる実験環境に適用可能であることを検証した。
関連論文リスト
- On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。
予備学習で学んだ特徴や表現は必須ではない。
論文 参考訳(メタデータ) (2024-11-14T18:59:40Z) - How Do Training Methods Influence the Utilization of Vision Models? [23.41975772383921]
すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。
アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。
本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-18T13:54:46Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Muppet: Massive Multi-task Representations with Pre-Finetuning [43.9101576877044]
事前調整は、事前訓練された判別器および生成モデルのパフォーマンスを一貫して改善することを示す。
我々はまた、大規模なマルチタスクが重要であることも示しています。事前調整は、重要なポイントまでタスクがほとんど使用されない場合にパフォーマンスを損なう可能性があります。
論文 参考訳(メタデータ) (2021-01-26T19:18:27Z) - Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。
本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文 参考訳(メタデータ) (2020-07-17T16:03:11Z) - Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。
我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文 参考訳(メタデータ) (2020-06-30T04:39:36Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。