Fugu-MT 論文翻訳(概要): Whitening and second order optimization both make information in the dataset unusable during training, and can reduce or prevent generalization

論文の概要: Whitening and second order optimization both make information in the dataset unusable during training, and can reduce or prevent generalization

arxiv url: http://arxiv.org/abs/2008.07545v4
Date: Mon, 19 Jul 2021 07:00:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 03:08:10.945816
Title: Whitening and second order optimization both make information in the dataset unusable during training, and can reduce or prevent generalization
Title（参考訳）: ホワイトニングと2次最適化は、トレーニング中にデータセット内の情報を使用不能にし、一般化を削減または防止できる
Authors: Neha S. Wadia, Daniel Duckworth, Samuel S. Schoenholz, Ethan Dyer and Jascha Sohl-Dickstein
Abstract要約: データの白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。一般モデルのクラス、すなわち、完全に連結された第一層を持つモデルに対して、この行列に含まれる情報が一般化に使用できる唯一の情報であることを示す。
参考スコア（独自算出の注目度）: 50.53690793828442
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning is predicated on the concept of generalization: a model achieving low error on a sufficiently large training set should also perform well on novel samples from the same distribution. We show that both data whitening and second order optimization can harm or entirely prevent generalization. In general, model training harnesses information contained in the sample-sample second moment matrix of a dataset. For a general class of models, namely models with a fully connected first layer, we prove that the information contained in this matrix is the only information which can be used to generalize. Models trained using whitened data, or with certain second order optimization schemes, have less access to this information, resulting in reduced or nonexistent generalization ability. We experimentally verify these predictions for several architectures, and further demonstrate that generalization continues to be harmed even when theoretical requirements are relaxed. However, we also show experimentally that regularized second order optimization can provide a practical tradeoff, where training is accelerated but less information is lost, and generalization can in some circumstances even improve.
Abstract（参考訳）: 機械学習は一般化の概念に基づいており、十分に大きなトレーニングセット上で低いエラーを達成するモデルは、同じ分布からの新しいサンプルでもうまく機能する。データ白化と二階最適化の両方が、一般化を損なうか、完全に阻止できることを示す。一般に、モデルトレーニングはデータセットのサンプルサンプル第2モーメントマトリックスに含まれる情報を活用する。モデルの一般的なクラス、すなわち完全連結の第1層を持つモデルに対して、この行列に含まれる情報は一般化に使用できる唯一の情報であることが証明される。ホワイト付きデータまたは特定の2階最適化スキームを用いて訓練されたモデルは、この情報へのアクセスを減らし、その結果、減少または存在しない一般化能力をもたらす。これらの予測をいくつかのアーキテクチャで実験的に検証し,理論的な要求が緩和された場合でも一般化が影響し続けていることをさらに証明した。しかし, 正規化2次最適化は, トレーニングを加速するが, 情報損失が少なく, 一般化も改善できる, という現実的なトレードオフをもたらすことを実験的に示す。

関連論文リスト

Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。一般化対メモ化は、時間スケール間の競合として最もよく理解される。この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文参考訳（メタデータ） (2025-05-22T17:40:08Z)
Generalization Capability for Imitation Learning [1.30536490219656]
模倣学習は、専門家によるデモンストレーションから学ぶことで、多芸なスキルを持つロボットを装備するという約束を果たす。しかしながら、有限データセットで訓練されたポリシーは、トレーニング分布を超えた一般化に苦慮することが多い。本稿では、情報理論とデータ分散特性の両方を基礎とした模倣学習の一般化能力に関する統一的な視点を示す。
論文参考訳（メタデータ） (2025-04-25T17:59:59Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
HG-Adapter: Improving Pre-Trained Heterogeneous Graph Neural Networks with Dual Adapters [53.97380482341493]
事前学習, 即時学習」は, 事前学習したヘテロジニアスグラフニューラルネットワーク(HGNN)のチューニング性能を示す。本稿では、2つの新しいアダプタと潜在的ラベル付きデータ拡張を組み合わせた統合フレームワークを提案し、事前学習されたHGNNモデルの一般化を改善する。
論文参考訳（メタデータ） (2024-11-02T06:43:54Z)
LEVI: Generalizable Fine-tuning via Layer-wise Ensemble of Different Views [28.081794908107604]
ファインチューニングは、新しい下流タスクで事前訓練された基礎モデルのパワーを活用するために使用される。近年の研究では、微調整されたモデルから目に見えない分布への一般化の課題が観察されている。そこで本研究では,タスク固有モデルを用いて,事前学習したモデルを階層的に適応的に組み立てる,一般化可能なファインチューニング手法LEVIを提案する。
論文参考訳（メタデータ） (2024-02-07T08:16:40Z)
Toward Theoretical Guidance for Two Common Questions in Practical Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文参考訳（メタデータ） (2023-01-12T16:37:12Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Bi-tuning of Pre-trained Representations [79.58542780707441]
Bi-tuningは、教師付きと教師なしの両方の事前訓練された表現を下流タスクに微調整するための一般的な学習フレームワークである。バイチューニングは、事前訓練された表現のバックボーンに2つのヘッドを統合することで、バニラファインチューニングを一般化する。バイチューニングは、教師付きモデルと教師なしモデルの両方の微調整タスクを大きなマージンで達成する。
論文参考訳（メタデータ） (2020-11-12T03:32:25Z)
The Curious Case of Adversarially Robust Models: More Data Can Help, Double Descend, or Hurt Generalization [36.87923859576768]
敵対的トレーニングは、入力データの摂動に頑健なモデルを作成する能力を示しているが、通常は標準精度の低下を犠牲にしている。本稿では, 学習データの増加が, 分類問題における相対的ロバストモデルの一般化を損なうことを示す。
論文参考訳（メタデータ） (2020-02-25T18:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。