論文の概要: Ask Your Distribution Shift if Pre-Training is Right for You
- arxiv url: http://arxiv.org/abs/2403.00194v1
- Date: Thu, 29 Feb 2024 23:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:47:48.007996
- Title: Ask Your Distribution Shift if Pre-Training is Right for You
- Title(参考訳): 事前トレーニングが正しいかどうか、分布シフトを尋ねてみよう
- Authors: Benjamin Cohen-Wang, Joshua Vendrow, Aleksander Madry
- Abstract要約: 実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
- 参考スコア(独自算出の注目度): 74.18516460467019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training is a widely used approach to develop models that are robust to
distribution shifts. However, in practice, its effectiveness varies:
fine-tuning a pre-trained model improves robustness significantly in some cases
but not at all in others (compared to training from scratch). In this work, we
seek to characterize the failure modes that pre-training can and cannot
address. In particular, we focus on two possible failure modes of models under
distribution shift: poor extrapolation (e.g., they cannot generalize to a
different domain) and biases in the training data (e.g., they rely on spurious
features). Our study suggests that, as a rule of thumb, pre-training can help
mitigate poor extrapolation but not dataset biases. After providing theoretical
motivation and empirical evidence for this finding, we explore two of its
implications for developing robust models: (1) pre-training and interventions
designed to prevent exploiting biases have complementary robustness benefits,
and (2) fine-tuning on a (very) small, non-diverse but de-biased dataset can
result in significantly more robust models than fine-tuning on a large and
diverse but biased dataset. Code is available at
https://github.com/MadryLab/pretraining-distribution-shift-robustness.
- Abstract(参考訳): 事前トレーニングは、分散シフトにロバストなモデルを開発するために広く使われているアプローチである。
事前トレーニングされたモデルの微調整は、いくつかのケースでは大幅に堅牢性が向上するが、他のケースでは(スクラッチからトレーニングを行う場合と比較して)全く改善されない。
本研究では,事前学習が可能で対処できない障害モードを特徴付ける。
特に、分散シフト中のモデルの2つの可能な障害モードに焦点をあてる。外挿不良(例えば、異なる領域に一般化できない)と、トレーニングデータ(例えば、スプリアス機能に依存している)のバイアスである。
私たちの研究は、親指の原則として、事前トレーニングは外挿の貧弱さを軽減できるが、データセットのバイアスは軽減できることを示唆している。
この発見に対する理論的モチベーションと実証的な証拠を提供し、(1)バイアスを悪用しないように設計された事前学習と介入が相補的な堅牢性をもたらすこと、(2)(非常に)小さく、非多様性があり、非バイアスのあるデータセットの微調整は、大きくて多様な偏りのあるデータセットの微調整よりもはるかに頑健なモデルをもたらす。
コードはhttps://github.com/MadryLab/pretraining-distribution-shift-robustnessで入手できる。
関連論文リスト
- Universality in Transfer Learning for Linear Models [18.427215139020625]
回帰モデルと二分分類モデルの両方を対象とした線形モデルにおける伝達学習の問題点について検討する。
我々は、厳密かつ厳密な分析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
論文 参考訳(メタデータ) (2024-10-03T03:09:09Z) - Distributionally Robust Post-hoc Classifiers under Prior Shifts [31.237674771958165]
本研究では,クラスプライヤやグループプライヤの分布の変化による変化に頑健なトレーニングモデルの問題点について検討する。
本稿では,事前学習モデルからの予測に対するスケーリング調整を行う,非常に軽量なポストホック手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T00:54:57Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Overwriting Pretrained Bias with Finetuning Data [36.050345384273655]
目的タスクと機密属性の相互関係を概念化した場合のバイアスや,データセット内の特定のグループを過小評価する場合のバイアスについて検討する。
事前訓練されたモデルの上に微調整されたモデルは、実際にそれらのバイアスを継承できるが、(2)このバイアスは、比較的小さな介入によって修正できる。
その結果、下流タスクのバイアスを軽減するためには、微調整データセットの慎重なキュレーションが重要であることが示唆され、事前訓練されたモデルのバイアスを補うこともできる。
論文 参考訳(メタデータ) (2023-03-10T19:10:58Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Predicting with Confidence on Unseen Distributions [90.68414180153897]
ドメイン適応と予測不確実性文学を結びつけて、挑戦的な未知分布のモデル精度を予測する。
分類器の予測における信頼度(DoC)の差は,様々な変化に対して,分類器の性能変化を推定することに成功した。
具体的には, 合成分布と自然分布の区別について検討し, その単純さにもかかわらず, DoCは分布差の定量化に優れることを示した。
論文 参考訳(メタデータ) (2021-07-07T15:50:18Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。