Fugu-MT 論文翻訳(概要): To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning

論文の概要: To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning

arxiv url: http://arxiv.org/abs/2303.03374v1
Date: Mon, 6 Mar 2023 18:56:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-07 14:41:13.691015
Title: To Stay or Not to Stay in the Pre-train Basin: Insights on Ensembling in Transfer Learning
Title（参考訳）: プレトレイン盆地に滞在するか否か:転校学習の実践をめざして
Authors: Ildus Sadrtdinov, Dmitrii Pozdeev, Dmitry Vetrov, Ekaterina Lobacheva
Abstract要約: 本研究では,1つの事前訓練検問所から訓練されたアンサンブルを,列車前流域やその外側の近辺をよりよく探索することで改善できるかどうかを検討する。プレトレイン盆地の探索はアンサンブルにとって有益であるが, 流域は移動学習の利点を失い, アンサンブルの質が低下することが示唆された。
参考スコア（独自算出の注目度）: 2.6610564551999563
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transfer learning and ensembling are two popular techniques for improving the performance and robustness of neural networks. Due to the high cost of pre-training, ensembles of models fine-tuned from a single pre-trained checkpoint are often used in practice. Such models end up in the same basin of the loss landscape and thus have limited diversity. In this work, we study if it is possible to improve ensembles trained from a single pre-trained checkpoint by better exploring the pre-train basin or a close vicinity outside of it. We show that while exploration of the pre-train basin may be beneficial for the ensemble, leaving the basin results in losing the benefits of transfer learning and degradation of the ensemble quality.
Abstract（参考訳）: transfer learningとensemblingは、ニューラルネットワークのパフォーマンスと堅牢性を改善するための2つの一般的なテクニックである。事前訓練のコストが高いため、1つの事前訓練済みチェックポイントから微調整されたモデルのアンサンブルが実際によく用いられる。このようなモデルは損失ランドスケープの同じ盆地に留まり、したがって多様性が制限される。本研究では,1つの事前学習検問所から訓練されたアンサンブルを,列車前流域やその外側の近辺をよりよく探索することで改善できるかどうかを検討する。プレトレイン盆地の探索はアンサンブルにとって有益であるが, 流域は移動学習の利点を失い, アンサンブルの質が低下することが示唆された。

関連論文リスト

Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem [12.185261182744377]
本研究は, 強化学習環境においてアクセントを付加した, 伝達不良の原因の1つを概念化したものである。モデルは、微調整の初期段階に訪れない下流タスクの状態部分空間を劣化させる。標準的な知識保持技術が問題を緩和し、事前訓練された能力を最大限に活用できることを示します。
論文参考訳（メタデータ） (2024-02-05T10:30:47Z)
What Happens During Finetuning of Vision Transformers: An Invariance Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文参考訳（メタデータ） (2023-07-12T08:35:24Z)
Continual Learning with Pretrained Backbones by Tuning in the Input Space [44.97953547553997]
ディープラーニングモデルを非定常環境に適用することの本質的な困難さは、ニューラルネットワークの実際のタスクへの適用性を制限している。ネットワークの事前学習部分の更新を回避し、通常の分類ヘッドだけでなく、新たに導入した学習可能なパラメータのセットも学習することで、微調整手順をより効果的にするための新しい戦略を提案する。
論文参考訳（メタデータ） (2023-06-05T15:11:59Z)
On the Trade-off of Intra-/Inter-class Diversity for Supervised Pre-training [72.8087629914444]
教師付き事前学習データセットのクラス内多様性(クラス毎のサンプル数)とクラス間多様性(クラス数)とのトレードオフの影響について検討した。トレーニング前のデータセットのサイズが固定された場合、最高のダウンストリームのパフォーマンスは、クラス内/クラス間の多様性のバランスがとれる。
論文参考訳（メタデータ） (2023-05-20T16:23:50Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文参考訳（メタデータ） (2022-11-18T02:00:17Z)
Continual Learning of Neural Machine Translation within Low Forgetting Risk Regions [21.488675531980444]
我々は,多目的学習を補助的損失で行う,広く用いられている正規化に基づく手法が,誤った問題に悩まされていることを論じる。実損失の局所的特徴に基づく2段階学習手法を提案する。ドメイン適応とより困難な言語適応タスクについて実験を行い,実験結果から本手法が大幅な改善を達成できることが示唆された。
論文参考訳（メタデータ） (2022-11-03T01:21:10Z)
Active Learning for Sequence Tagging with Deep Pre-trained Models and Bayesian Uncertainty Estimates [52.164757178369804]
自然言語処理のためのトランスファーラーニングとアクティブラーニングの最近の進歩は、必要なアノテーション予算を大幅に削減する可能性を開く。我々は,様々なベイズ不確実性推定手法とモンテカルロドロップアウトオプションの実験的研究を,アクティブ学習フレームワークで実施する。また, 能動学習中にインスタンスを取得するためには, 完全サイズのトランスフォーマーを蒸留版に置き換えることにより, 計算性能が向上することを示した。
論文参考訳（メタデータ） (2021-01-20T13:59:25Z)
The Lottery Tickets Hypothesis for Supervised and Self-supervised Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。最近の研究は、巨大モデル能力による事前学習の利点を示唆している。本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文参考訳（メタデータ） (2020-12-12T21:53:55Z)
Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。プレトレーニング自体が多様性の優れた源であることが示される。本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-14T07:59:00Z)
Unsupervised Transfer Learning for Spatiotemporal Predictive Networks [90.67309545798224]
我々は、教師なし学習されたモデルの動物園から別のネットワークへ知識を伝達する方法を研究する。私たちのモチベーションは、モデルは異なるソースからの複雑なダイナミクスを理解することが期待されていることです。提案手法は,時間的予測のための3つのベンチマークで大幅に改善され,重要度が低いベンチマークであっても,ターゲットのメリットが得られた。
論文参考訳（メタデータ） (2020-09-24T15:40:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。