論文の概要: To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in
Transfer Learning
- arxiv url: http://arxiv.org/abs/2303.03374v3
- Date: Mon, 15 Jan 2024 19:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:24:33.490962
- Title: To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in
Transfer Learning
- Title(参考訳): プレトレイン盆地に滞在するか否か:転校学習の実践をめざして
- Authors: Ildus Sadrtdinov, Dmitrii Pozdeev, Dmitry Vetrov, Ekaterina Lobacheva
- Abstract要約: 我々は,1つの事前訓練点から訓練されたアンサンブルを,事前訓練点からよりよく探索することで改善できることを示した。
本稿では,転送学習のためのスナップショットアンサンブル(SSE)をより効果的に改良するStarSSEを提案する。
- 参考スコア(独自算出の注目度): 3.514757448524572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning and ensembling are two popular techniques for improving the
performance and robustness of neural networks. Due to the high cost of
pre-training, ensembles of models fine-tuned from a single pre-trained
checkpoint are often used in practice. Such models end up in the same basin of
the loss landscape, which we call the pre-train basin, and thus have limited
diversity. In this work, we show that ensembles trained from a single
pre-trained checkpoint may be improved by better exploring the pre-train basin,
however, leaving the basin results in losing the benefits of transfer learning
and in degradation of the ensemble quality. Based on the analysis of existing
exploration methods, we propose a more effective modification of the Snapshot
Ensembles (SSE) for transfer learning setup, StarSSE, which results in stronger
ensembles and uniform model soups.
- Abstract(参考訳): transfer learningとensemblingは、ニューラルネットワークのパフォーマンスと堅牢性を改善するための2つの一般的なテクニックである。
事前訓練のコストが高いため、1つの事前訓練済みチェックポイントから微調整されたモデルのアンサンブルが実際によく用いられる。
このようなモデルは、私たちがプレトレイン盆地と呼ぶロスランドスケープの同じ流域に留まり、そのため多様性は限られている。
本研究では,1つの事前学習チェックポイントから訓練したアンサンブルを,列車前流域の探索により改善できることを示すが,このアンサンブルは移動学習の利点を失い,アンサンブルの品質が低下する結果となる。
本稿では,既存の探索手法の分析に基づいて,より効果的にSSE(Snapshot Ensembles)を改良し,より強力なアンサンブルと均一なモデルスープをもたらすStarSSEを提案する。
関連論文リスト
- Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem [12.185261182744377]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。
モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。
標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文 参考訳(メタデータ) (2024-02-05T10:30:47Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Continual Learning with Pretrained Backbones by Tuning in the Input
Space [44.97953547553997]
ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。
ネットワークの事前学習部分の更新を回避し、通常の分類ヘッドだけでなく、新たに導入した学習可能なパラメータのセットも学習することで、微調整手順をより効果的にするための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-06-05T15:11:59Z) - On the Trade-off of Intra-/Inter-class Diversity for Supervised
Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。
トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文 参考訳(メタデータ) (2023-05-20T16:23:50Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Continual Learning of Neural Machine Translation within Low Forgetting
Risk Regions [21.488675531980444]
我々は,多目的学習を補助的損失で行う,広く用いられている正規化に基づく手法が,誤った問題に悩まされていることを論じる。
実損失の局所的特徴に基づく2段階学習手法を提案する。
ドメイン適応とより困難な言語適応タスクについて実験を行い,実験結果から本手法が大幅な改善を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-11-03T01:21:10Z) - Active Learning for Sequence Tagging with Deep Pre-trained Models and
Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。
我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。
また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文 参考訳(メタデータ) (2021-01-20T13:59:25Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。
私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。
提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文 参考訳(メタデータ) (2020-09-24T15:40:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。