Fugu-MT 論文翻訳(概要): How to prepare your task head for finetuning

論文の概要: How to prepare your task head for finetuning

arxiv url: http://arxiv.org/abs/2302.05779v1
Date: Sat, 11 Feb 2023 20:50:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 18:32:32.985304
Title: How to prepare your task head for finetuning
Title（参考訳）: 微調整のためのタスクヘッドの用意方法
Authors: Yi Ren, Shangmin Guo, Wonho Bae, Danica J. Sutherland
Abstract要約: ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。
参考スコア（独自算出の注目度）: 11.224501003009879
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In deep learning, transferring information from a pretrained network to a downstream task by finetuning has many benefits. The choice of task head plays an important role in fine-tuning, as the pretrained and downstream tasks are usually different. Although there exist many different designs for finetuning, a full understanding of when and why these algorithms work has been elusive. We analyze how the choice of task head controls feature adaptation and hence influences the downstream performance. By decomposing the learning dynamics of adaptation, we find that the key aspect is the training accuracy and loss at the beginning of finetuning, which determines the "energy" available for the feature's adaptation. We identify a significant trend in the effect of changes in this initial energy on the resulting features after fine-tuning. Specifically, as the energy increases, the Euclidean and cosine distances between the resulting and original features increase, while their dot products (and the resulting features' norm) first increase and then decrease. Inspired by this, we give several practical principles that lead to better downstream performance. We analytically prove this trend in an overparamterized linear setting and verify its applicability to different experimental settings.
Abstract（参考訳）: ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。ファインタニングには様々な設計があるが、これらのアルゴリズムがいつ、なぜ機能するのかが完全に理解されている。タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。適応の学習力学を分解することにより、重要な側面は微調整の開始時の訓練精度と損失であり、特徴の適応に利用可能な「エネルギー」を決定する。我々は,この初期エネルギーの変化が微調整後の特徴に与える影響の顕著な傾向を明らかにした。具体的には、エネルギーが増加するにつれて、結果として得られる特徴と元の特徴の間のユークリッドと余弦距離が増加し、ドット積(および結果として生じる特徴のノルム)が最初に増加し、減少する。これに触発されて、下流のパフォーマンスを改善するための実践的な原則をいくつか提供します。この傾向を超並列線形設定で解析的に証明し, 異なる実験環境に適用可能であることを検証した。

関連論文リスト

How Weight Resampling and Optimizers Shape the Dynamics of Continual Learning and Forgetting in Neural Networks [2.270857464465579]
連続学習における最近の研究は、ニューラルネットワークの最後の層(ザッピング)における重みの再サンプリングの効果を強調している。本研究では,畳み込みニューラルネットワーク内で発生する学習と忘れのパターンを,挑戦的な設定でトレーニングした場合に詳細に検討する。
論文参考訳（メタデータ） (2025-07-02T10:18:35Z)
On the Surprising Effectiveness of Attention Transfer for Vision Transformers [118.83572030360843]
従来の知恵は、事前学習型視覚変換器(ViT)が有用な表現を学習することで、下流のパフォーマンスを向上させることを示唆している。予備学習で学んだ特徴や表現は必須ではない。
論文参考訳（メタデータ） (2024-11-14T18:59:40Z)
How Do Training Methods Influence the Utilization of Vision Models? [23.41975772383921]
すべての学習可能なパラメータが、ニューラルネットワークの決定関数に等しく寄与するわけではない。アーキテクチャとタスクの複雑さがこの現象にどのように影響するかを調べる以前の研究を再考する。本研究により, 学習手法は, 与えられた課題に対する決定関数にどの層が重要になるかに強く影響を与えることが明らかとなった。
論文参考訳（メタデータ） (2024-10-18T13:54:46Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文参考訳（メタデータ） (2023-07-12T08:35:24Z)
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文参考訳（メタデータ） (2022-09-30T19:12:58Z)
Muppet: Massive Multi-task Representations with Pre-Finetuning [43.9101576877044]
事前調整は、事前訓練された判別器および生成モデルのパフォーマンスを一貫して改善することを示す。我々はまた、大規模なマルチタスクが重要であることも示しています。事前調整は、重要なポイントまでタスクがほとんど使用されない場合にパフォーマンスを損なう可能性があります。
論文参考訳（メタデータ） (2021-01-26T19:18:27Z)
Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文参考訳（メタデータ） (2020-07-17T16:03:11Z)
Uniform Priors for Data-Efficient Transfer [65.086680950871]
もっとも移動可能な特徴は埋め込み空間において高い均一性を有することを示す。我々は、未確認のタスクやデータへの適応を容易にする能力の正規化を評価する。
論文参考訳（メタデータ） (2020-06-30T04:39:36Z)
Side-Tuning: A Baseline for Network Adaptation via Additive Side Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。本稿では,サイドチューニングという簡単な方法を提案する。
論文参考訳（メタデータ） (2019-12-31T18:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。