Fugu-MT 論文翻訳(概要): What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation

論文の概要: What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation

arxiv url: http://arxiv.org/abs/2307.06006v1
Date: Wed, 12 Jul 2023 08:35:24 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 13:51:27.046018
Title: What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation
Title（参考訳）: 視覚トランスフォーマーの微調整中に起こること:不変性に基づく調査
Authors: Gabriele Merlin, Vedant Nanda, Ruchit Rawal, Mariya Toneva
Abstract要約: Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
参考スコア（独自算出の注目度）: 7.432224771219168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The pretrain-finetune paradigm usually improves downstream performance over training a model from scratch on the same task, becoming commonplace across many areas of machine learning. While pretraining is empirically observed to be beneficial for a range of tasks, there is not a clear understanding yet of the reasons for this effect. In this work, we examine the relationship between pretrained vision transformers and the corresponding finetuned versions on several benchmark datasets and tasks. We present new metrics that specifically investigate the degree to which invariances learned by a pretrained model are retained or forgotten during finetuning. Using these metrics, we present a suite of empirical findings, including that pretraining induces transferable invariances in shallow layers and that invariances from deeper pretrained layers are compressed towards shallower layers during finetuning. Together, these findings contribute to understanding some of the reasons for the successes of pretrained models and the changes that a pretrained model undergoes when finetuned on a downstream task.
Abstract（参考訳）: pretrain-finetuneパラダイムは通常、同じタスクでモデルをスクラッチからトレーニングするよりも下流のパフォーマンスを改善し、マシンラーニングの多くの領域で共通化します。プレトレーニングは様々なタスクに有益であると実証的に見られているが、この効果の理由についてはまだ明確には分かっていない。本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。本稿では,事前学習モデルで学習した不変性が,微調整中にどのように保持されるか,あるいは忘れられるかを明らかにする。これらの測定値を用いて, 事前学習は浅層における伝達可能な不変性を誘導し, より深い事前学習層からの不変性を微調整中により浅い層へ圧縮するなど, 一連の実験結果を示す。これらの知見は、事前訓練されたモデルの成功の理由と、下流タスクで微調整された場合の事前訓練されたモデルの変化を理解するのに寄与する。

関連論文リスト

One-Layer Transformers are Provably Optimal for In-context Reasoning and Distributional Association Learning in Next-Token Prediction Tasks [11.06955946904705]
そこで本研究では,一層変圧器の非雑音・雑音環境における近似能力と収束挙動について検討した。我々の研究は、線形およびReLUの両方の注意を払って、確実にベイズ最適である一層変圧器のクラスが存在することを示すことによってギャップに対処する。
論文参考訳（メタデータ） (2025-05-21T01:26:44Z)
SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文参考訳（メタデータ） (2024-07-23T20:34:23Z)
Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文参考訳（メタデータ） (2024-07-09T15:45:04Z)
Inverse Dynamics Pretraining Learns Good Representations for Multitask Imitation [66.86987509942607]
このようなパラダイムを模倣学習でどのように行うべきかを評価する。本稿では,事前学習コーパスがマルチタスクのデモンストレーションから成り立つ環境について考察する。逆動力学モデリングはこの設定に適していると主張する。
論文参考訳（メタデータ） (2023-05-26T14:40:46Z)
Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文参考訳（メタデータ） (2022-09-30T02:25:12Z)
Probing Representation Forgetting in Supervised and Unsupervised Continual Learning [14.462797749666992]
破滅的な忘れ物は、以前にモデルで学んだ知識の急激な喪失と関係している。表現を忘れることによって,モデル能力と損失関数が連続学習に与える影響について新たな知見が得られることを示す。
論文参考訳（メタデータ） (2022-03-24T23:06:08Z)
An Empirical Investigation of the Role of Pre-training in Lifelong Learning [21.995593026269578]
複数のタスクを逐次学習する際の破滅的忘れの影響を,ジェネリック事前学習が暗黙的に軽減することを示す。本研究では、この現象を損失景観を解析し、トレーニング済みの重みがより広いミニマへと導くことで忘れやすいように見えることを明らかにする。
論文参考訳（メタデータ） (2021-12-16T19:00:55Z)
Pre-training also Transfers Non-Robustness [20.226917627173126]
一般化への貢献が認められているにもかかわらず、事前学習は、事前訓練されたモデルから微調整されたモデルへの非破壊性も伝達する。その結果, 損耗を緩和し, 一般化を保ち, 有効性を検証した。
論文参考訳（メタデータ） (2021-06-21T11:16:13Z)
Reducing Representation Drift in Online Continual Learning [87.71558506591937]
私たちは、エージェントが制限されたメモリと計算で変化する分布から学ぶ必要があるオンライン連続学習パラダイムを研究します。この作業では、入ってくるデータストリームに未観測のクラスサンプルが導入されることにより、事前に観測されたデータの表現の変化に焦点を合わせます。
論文参考訳（メタデータ） (2021-04-11T15:19:30Z)
On the Interplay Between Fine-tuning and Sentence-level Probing for Linguistic Knowledge in Pre-trained Transformers [24.858283637038422]
本稿では,BERT,RoBERTa,ALBERTの3種類の事前学習モデルについて検討する。探究タスクの微調整によって精度が大幅に変化することを発見した。ファインチューニングは、実際に事前訓練されたモデルの表現を変えるが、ごく少数のケースでのみ、ファインチューニングは探索精度に肯定的な影響を及ぼす。
論文参考訳（メタデータ） (2020-10-06T10:54:00Z)
Multi-Stage Influence Function [97.19210942277354]
我々は、事前学習データまで遡って、微調整されたモデルから予測を追跡するための多段階影響関数スコアを開発する。本研究は,2つのシナリオについて検討し,事前訓練した埋め込みを微調整タスクで固定または更新する。
論文参考訳（メタデータ） (2020-07-17T16:03:11Z)
Investigating Transferability in Pretrained Language Models [8.83046338075119]
本稿では,各事前学習層が伝達タスク性能に与える影響を簡易なアブレーション手法で判定する。この手法により、BERTでは、下流GLUEタスクにおける高いプローブ性能を持つレイヤは、それらのタスクに対して高い精度で必要でも十分でもないことが分かる。
論文参考訳（メタデータ） (2020-04-30T17:23:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。