論文の概要: Whitening and second order optimization both make information in the
dataset unusable during training, and can reduce or prevent generalization
- arxiv url: http://arxiv.org/abs/2008.07545v4
- Date: Mon, 19 Jul 2021 07:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:08:10.945816
- Title: Whitening and second order optimization both make information in the
dataset unusable during training, and can reduce or prevent generalization
- Title(参考訳): ホワイトニングと2次最適化は、トレーニング中にデータセット内の情報を使用不能にし、一般化を削減または防止できる
- Authors: Neha S. Wadia, Daniel Duckworth, Samuel S. Schoenholz, Ethan Dyer and
Jascha Sohl-Dickstein
- Abstract要約: データの白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。
一般モデルのクラス、すなわち、完全に連結された第一層を持つモデルに対して、この行列に含まれる情報が一般化に使用できる唯一の情報であることを示す。
- 参考スコア(独自算出の注目度): 50.53690793828442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is predicated on the concept of generalization: a model
achieving low error on a sufficiently large training set should also perform
well on novel samples from the same distribution. We show that both data
whitening and second order optimization can harm or entirely prevent
generalization. In general, model training harnesses information contained in
the sample-sample second moment matrix of a dataset. For a general class of
models, namely models with a fully connected first layer, we prove that the
information contained in this matrix is the only information which can be used
to generalize. Models trained using whitened data, or with certain second order
optimization schemes, have less access to this information, resulting in
reduced or nonexistent generalization ability. We experimentally verify these
predictions for several architectures, and further demonstrate that
generalization continues to be harmed even when theoretical requirements are
relaxed. However, we also show experimentally that regularized second order
optimization can provide a practical tradeoff, where training is accelerated
but less information is lost, and generalization can in some circumstances even
improve.
- Abstract(参考訳): 機械学習は一般化の概念に基づいており、十分に大きなトレーニングセット上で低いエラーを達成するモデルは、同じ分布からの新しいサンプルでもうまく機能する。
データ白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。
一般に、モデルトレーニングはデータセットのサンプルサンプル第2モーメントマトリックスに含まれる情報を活用する。
モデルの一般的なクラス、すなわち完全連結の第1層を持つモデルに対して、この行列に含まれる情報は一般化に使用できる唯一の情報であることが証明される。
ホワイト付きデータまたは特定の2階最適化スキームを用いて訓練されたモデルは、この情報へのアクセスを減らし、その結果、減少または存在しない一般化能力をもたらす。
これらの予測をいくつかのアーキテクチャで実験的に検証し,理論的な要求が緩和された場合でも一般化が影響し続けていることをさらに証明した。
しかし, 正規化2次最適化は, トレーニングを加速するが, 情報損失が少なく, 一般化も改善できる, という現実的なトレードオフをもたらすことを実験的に示す。
関連論文リスト
- LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different
Views [28.917597757230745]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Clarify: Improving Model Robustness With Natural Language Corrections [63.342630414000006]
教師付き学習では、モデルは静的データセットから相関を抽出するために訓練される。
これはしばしば、高レベルの誤解に依存するモデルにつながる。
モデル誤解をインタラクティブに修正する新しいインターフェースと方法であるClarifyを紹介した。
論文 参考訳(メタデータ) (2024-02-06T05:11:38Z) - Data Mixture in Training Un-assures Out-of-Distribution Generalization [23.519013423909417]
モデルの分布外一般化能力の問題について検討する。
以前の証拠は、エラーがトレーニングセットのサイズのパワーとしてオフになることを示している。
トレーニングデータサイズの増加が必ずしもテスト一般化誤差の減少につながるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Evading the Simplicity Bias: Training a Diverse Set of Models Discovers
Solutions with Superior OOD Generalization [93.8373619657239]
SGDで訓練されたニューラルネットワークは最近、線形予測的特徴に優先的に依存することが示された。
この単純さバイアスは、分布外堅牢性(OOD)の欠如を説明することができる。
単純さのバイアスを軽減し,ood一般化を改善できることを実証する。
論文 参考訳(メタデータ) (2021-05-12T12:12:24Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - The Curious Case of Adversarially Robust Models: More Data Can Help,
Double Descend, or Hurt Generalization [36.87923859576768]
敵対的トレーニングは、入力データの摂動に頑健なモデルを作成する能力を示しているが、通常は標準精度の低下を犠牲にしている。
本稿では, 学習データの増加が, 分類問題における相対的ロバストモデルの一般化を損なうことを示す。
論文 参考訳(メタデータ) (2020-02-25T18:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。