論文の概要: Whitening and second order optimization both make information in the
dataset unusable during training, and can reduce or prevent generalization
- arxiv url: http://arxiv.org/abs/2008.07545v4
- Date: Mon, 19 Jul 2021 07:00:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 03:08:10.945816
- Title: Whitening and second order optimization both make information in the
dataset unusable during training, and can reduce or prevent generalization
- Title(参考訳): ホワイトニングと2次最適化は、トレーニング中にデータセット内の情報を使用不能にし、一般化を削減または防止できる
- Authors: Neha S. Wadia, Daniel Duckworth, Samuel S. Schoenholz, Ethan Dyer and
Jascha Sohl-Dickstein
- Abstract要約: データの白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。
一般モデルのクラス、すなわち、完全に連結された第一層を持つモデルに対して、この行列に含まれる情報が一般化に使用できる唯一の情報であることを示す。
- 参考スコア(独自算出の注目度): 50.53690793828442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning is predicated on the concept of generalization: a model
achieving low error on a sufficiently large training set should also perform
well on novel samples from the same distribution. We show that both data
whitening and second order optimization can harm or entirely prevent
generalization. In general, model training harnesses information contained in
the sample-sample second moment matrix of a dataset. For a general class of
models, namely models with a fully connected first layer, we prove that the
information contained in this matrix is the only information which can be used
to generalize. Models trained using whitened data, or with certain second order
optimization schemes, have less access to this information, resulting in
reduced or nonexistent generalization ability. We experimentally verify these
predictions for several architectures, and further demonstrate that
generalization continues to be harmed even when theoretical requirements are
relaxed. However, we also show experimentally that regularized second order
optimization can provide a practical tradeoff, where training is accelerated
but less information is lost, and generalization can in some circumstances even
improve.
- Abstract(参考訳): 機械学習は一般化の概念に基づいており、十分に大きなトレーニングセット上で低いエラーを達成するモデルは、同じ分布からの新しいサンプルでもうまく機能する。
データ白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。
一般に、モデルトレーニングはデータセットのサンプルサンプル第2モーメントマトリックスに含まれる情報を活用する。
モデルの一般的なクラス、すなわち完全連結の第1層を持つモデルに対して、この行列に含まれる情報は一般化に使用できる唯一の情報であることが証明される。
ホワイト付きデータまたは特定の2階最適化スキームを用いて訓練されたモデルは、この情報へのアクセスを減らし、その結果、減少または存在しない一般化能力をもたらす。
これらの予測をいくつかのアーキテクチャで実験的に検証し,理論的な要求が緩和された場合でも一般化が影響し続けていることをさらに証明した。
しかし, 正規化2次最適化は, トレーニングを加速するが, 情報損失が少なく, 一般化も改善できる, という現実的なトレードオフをもたらすことを実験的に示す。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。
本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-11-02T06:43:54Z) - LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。
近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。
そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文 参考訳(メタデータ) (2024-02-07T08:16:40Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z) - Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。
バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。
バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文 参考訳(メタデータ) (2020-11-12T03:32:25Z) - The Curious Case of Adversarially Robust Models: More Data Can Help,
Double Descend, or Hurt Generalization [36.87923859576768]
敵対的トレーニングは、入力データの摂動に頑健なモデルを作成する能力を示しているが、通常は標準精度の低下を犠牲にしている。
本稿では, 学習データの増加が, 分類問題における相対的ロバストモデルの一般化を損なうことを示す。
論文 参考訳(メタデータ) (2020-02-25T18:25:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。