論文の概要: Fine-tuning with Very Large Dropout
- arxiv url: http://arxiv.org/abs/2403.00946v1
- Date: Fri, 1 Mar 2024 19:50:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 15:45:10.127137
- Title: Fine-tuning with Very Large Dropout
- Title(参考訳): 非常に大きなドロップアウトで微調整する
- Authors: Jianyu Zhang, L\'eon Bottou
- Abstract要約: 今日では、機械学習の実践が、トレーニングデータとテストデータが同じ分布に従うという考えと互換性があるというふりは不可能である。
何人かの著者が最近、複数のデータ分散に関わるシナリオが、リッチな表現によってどのように最も役立っているかを示すためにアンサンブル技術を使用している。
この貢献は、このようなリッチな表現を得るために、アンサンブルの代わりに非常に高いドロップアウト率を使用することを調査する。
- 参考スコア(独自算出の注目度): 4.357691364971652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is impossible today to pretend that the practice of machine learning is
compatible with the idea that training and testing data follow the same
distribution. Several authors have recently used ensemble techniques to show
how scenarios involving multiple data distributions are best served by
representations that are both richer than those obtained by regularizing for
the best in-distribution performance, and richer than those obtained under the
influence of the implicit sparsity bias of common stochastic gradient
procedures.
This contribution investigates the use of very high dropout rates instead of
ensembles to obtain such rich representations. Although training a deep network
from scratch using such dropout rates is virtually impossible, fine-tuning a
large pre-trained model under such conditions is not only possible but also
achieves out-of-distribution performances that exceed those of both ensembles
and weight averaging methods such as model soups. This result has practical
significance because the importance of the fine-tuning scenario has
considerably grown in recent years. This result also provides interesting
insights on the nature of rich representations and on the intrinsically linear
nature of fine-tuning a large network using a comparatively small dataset.
- Abstract(参考訳): 今日では、機械学習の実践が、トレーニングデータとテストデータが同じ分布に従うという考えと互換性があるというふりは不可能である。
何人かの著者が最近アンサンブル手法を用いて、複数のデータ分布を包含するシナリオが、最適な分配性能のために正規化して得られるものよりもリッチで、一般的な確率勾配手順の暗黙の空間バイアスの影響下で得られるものよりもリッチであることを示す。
この貢献は、このような豊かな表現を得るためにアンサンブルの代わりに非常に高いドロップアウト率の使用を調査している。
このような脱落率を用いてスクラッチから深層ネットワークを訓練することは事実上不可能であるが、そのような条件下での大規模事前学習モデルによる微調整は可能であるだけでなく、アンサンブルやモデルスープなどの重量平均法を超越した分配性能も達成できる。
この結果は,近年,微調整シナリオの重要性が著しく増しているため,実際的な意義がある。
この結果はまた、リッチ表現の性質と、比較的小さなデータセットを用いて大規模ネットワークを微調整する本質的に線形性に関する興味深い洞察を与える。
関連論文リスト
- Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Towards Accelerated Model Training via Bayesian Data Selection [45.62338106716745]
本稿では,モデルの一般化損失に対するデータの影響を調べることによって,より合理的なデータ選択原理を提案する。
近年の研究では、モデルの一般化損失に対するデータの影響を調べることによって、より合理的なデータ選択の原則が提案されている。
この研究は、軽量ベイズ処理を活用し、大規模な事前訓練モデル上に構築された既製のゼロショット予測器を組み込むことにより、これらの問題を解決する。
論文 参考訳(メタデータ) (2023-08-21T07:58:15Z) - Uncertainty in Contrastive Learning: On the Predictability of Downstream
Performance [7.411571833582691]
このような表現の不確実性は、単一のデータポイントに対して有意義な方法で定量化できるかどうかを考察する。
埋め込み空間におけるトレーニングデータの分布を直接推定することにより,この目標を達成することができることを示す。
論文 参考訳(メタデータ) (2022-07-19T15:44:59Z) - Sliced-Wasserstein normalizing flows: beyond maximum likelihood training [12.91637880428221]
正規化フローは通常、非現実的なデータを生成する傾向を含むいくつかの欠点に悩まされる。
本稿では,最大極大原理(MLE)とスライス・ワッサーシュタイン距離を組み合わせたハイブリッド目的関数に基づく新しいトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2022-07-12T11:29:49Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Robust model training and generalisation with Studentising flows [22.757298187704745]
本稿では、ロバストな(特に耐性のある)統計からの洞察に基づいて、これらの手法をさらに改善する方法について論じる。
本稿では, ガウス分布の簡易なドロップイン置換として, 太い尾の潜伏分布を持つフローベースモデルを提案する。
いくつかの異なるデータセットの実験により、提案手法の有効性が確認された。
論文 参考訳(メタデータ) (2020-06-11T16:47:01Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。