論文の概要: On the Benefits of Over-parameterization for Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2403.17592v1
- Date: Tue, 26 Mar 2024 11:01:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:47:16.901779
- Title: On the Benefits of Over-parameterization for Out-of-Distribution Generalization
- Title(参考訳): アウト・オブ・ディストリビューション一般化におけるオーバーパラメータ化の効果について
- Authors: Yifan Hao, Yong Lin, Difan Zou, Tong Zhang,
- Abstract要約: 本稿では,過度なオーバーフィット条件下でのアウト・オブ・ディストリビューション(OOD)損失を考慮した機械学習モデルの性能について検討する。
モデルパラメータ化のさらなる増大はOOD損失を著しく減少させることを示した。
これらの知見は、モデルアンサンブルによるOOD一般化の実証的な現象を説明する。
- 参考スコア(独自算出の注目度): 28.961538657831788
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, machine learning models have achieved success based on the independently and identically distributed assumption. However, this assumption can be easily violated in real-world applications, leading to the Out-of-Distribution (OOD) problem. Understanding how modern over-parameterized DNNs behave under non-trivial natural distributional shifts is essential, as current theoretical understanding is insufficient. Existing theoretical works often provide meaningless results for over-parameterized models in OOD scenarios or even contradict empirical findings. To this end, we are investigating the performance of the over-parameterized model in terms of OOD generalization under the general benign overfitting conditions. Our analysis focuses on a random feature model and examines non-trivial natural distributional shifts, where the benign overfitting estimators demonstrate a constant excess OOD loss, despite achieving zero excess in-distribution (ID) loss. We demonstrate that in this scenario, further increasing the model's parameterization can significantly reduce the OOD loss. Intuitively, the variance term of ID loss remains low due to orthogonality of long-tail features, meaning overfitting noise during training generally doesn't raise testing loss. However, in OOD cases, distributional shift increases the variance term. Thankfully, the inherent shift is unrelated to individual x, maintaining the orthogonality of long-tail features. Expanding the hidden dimension can additionally improve this orthogonality by mapping the features into higher-dimensional spaces, thereby reducing the variance term. We further show that model ensembles also improve OOD loss, akin to increasing model capacity. These insights explain the empirical phenomenon of enhanced OOD generalization through model ensembles, supported by consistent simulations with theoretical results.
- Abstract(参考訳): 近年、機械学習モデルは、独立に、同一に分散された仮定に基づいて成功している。
しかし、この仮定は現実世界のアプリケーションでは容易に破られ、アウト・オブ・ディストリビューション(OOD)問題に繋がる。
現代の過度パラメータ化DNNは、現在の理論的理解が不十分であるため、非自明な自然分布シフトの下でどのように振る舞うかを理解することが不可欠である。
既存の理論的研究は、OODシナリオにおける過度にパラメータ化されたモデルに対して無意味な結果を与えるか、あるいは経験的な結果に矛盾する。
そこで本研究では,OOD一般化における過度パラメータ化モデルの性能について,一般的な過度適合条件下で検討している。
本分析はランダムな特徴モデルに焦点をあて,非自明な自然分布変化を考察する。そこでは,過剰分布(ID)損失がゼロであるにもかかわらず,良性過剰分布推定器が一定に過剰なOOD損失を示す。
このシナリオでは、モデルのパラメータ化をさらに増加させることで、OOD損失が大幅に減少することを示した。
直感的には、長い尾の特徴の直交性のため、ID損失の分散項は依然として低く、訓練中のノイズ過収は一般にテスト損失を生じない。
しかし、OODの場合、分布シフトは分散項を増加させる。
ありがたいことに、本質的なシフトは個々の x とは無関係であり、長い尾の特徴の直交性を維持する。
隠れた次元を拡張することで、これらの特徴を高次元空間にマッピングすることで、この直交性も改善され、したがって分散項が減少する。
さらに,モデルアンサンブルによりOOD損失が改善し,モデル能力が向上することを示す。
これらの知見は、モデルアンサンブルによる拡張OOD一般化の実証的な現象を説明し、理論的な結果と一貫したシミュレーションによって支持される。
関連論文リスト
- MANO: Exploiting Matrix Norm for Unsupervised Accuracy Estimation Under Distribution Shifts [25.643876327918544]
現在のロジットベースの手法は過信問題に対して脆弱であり、特に自然変化の下では予測バイアスにつながる。
予測バイアスを低減するために,データ依存正規化を適用したMaNoを提案し,正規化ロジットの行列の$L_p$ノルムを推定スコアとする。
MaNoは、合成、自然、またはサブポピュレーションシフトの存在下で、さまざまなアーキテクチャで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-29T10:45:06Z) - Identifiable Latent Neural Causal Models [82.14087963690561]
因果表現学習は、低レベルの観測データから潜伏した高レベルの因果表現を明らかにすることを目指している。
因果表現の識別可能性に寄与する分布シフトのタイプを決定する。
本稿では,本研究の成果を実用的なアルゴリズムに翻訳し,信頼性の高い潜在因果表現の取得を可能にする。
論文 参考訳(メタデータ) (2024-03-23T04:13:55Z) - Mixture Data for Training Cannot Ensure Out-of-distribution Generalization [21.801115344132114]
トレーニングデータのサイズが大きくなると、必ずしもテスト一般化誤差が減少するとは限らない。
本研究では,OODデータを混合学習データの凸内外にあるデータとして定量的に再定義する。
新たなリスクバウンドの証明は、よく訓練されたモデルの有効性が、目に見えないデータに対して保証されることに同意する。
論文 参考訳(メタデータ) (2023-12-25T11:00:38Z) - Diagnosing and Rectifying Fake OOD Invariance: A Restructured Causal
Approach [51.012396632595554]
不変表現学習(IRL)は、不変因果的特徴から環境から切り離されたラベルへの予測を促進する。
最近の理論的結果は、IRLによって回復されたいくつかの因果的特徴は、訓練環境ではドメイン不変のふりをするが、目に見えない領域では失敗する。
本研究では,RS-SCMに関する条件付き相互情報に基づく手法を開発し,その効果を巧みに補正する。
論文 参考訳(メタデータ) (2023-12-15T12:58:05Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Curve Your Enthusiasm: Concurvity Regularization in Differentiable
Generalized Additive Models [5.519653885553456]
GAM(Generalized Additive Models)はその解釈可能性のために最近人気が回復した。
我々は,GAMの解釈可能性の低下がいかに深刻かを示す。
線形変換しない特徴変数の相互相関をペナルティ化した,概念的には単純だが効果的な正則化器を提案する。
論文 参考訳(メタデータ) (2023-05-19T06:55:49Z) - Exploring Optimal Substructure for Out-of-distribution Generalization
via Feature-targeted Model Pruning [23.938392334438582]
本研究では,不均一な部分構造を自動探索するために,SFPと呼ばれる新しいSpurious Feature-targeted Model Pruningフレームワークを提案する。
SFP は構造ベースおよび非構造 OOD 一般化 SOTA をそれぞれ4.72% と 23.35% に向上させることができる。
論文 参考訳(メタデータ) (2022-12-19T13:51:06Z) - Relating Regularization and Generalization through the Intrinsic
Dimension of Activations [11.00580615194563]
画像分類モデルにおける検証セットアクティベーションの最終層ID(LLID)を,共通正規化手法により均一に低減することを示す。
また、グルーキングを示すモデルのトレーニングの過程でLLIDについても検討する。
論文 参考訳(メタデータ) (2022-11-23T19:00:00Z) - Regularizing Variational Autoencoder with Diversity and Uncertainty
Awareness [61.827054365139645]
変分オートエンコーダ(VAE)は、償却変分推論に基づいて潜伏変数の後部を近似する。
よりディバースで不確実な潜在空間を学習するための代替モデルDU-VAEを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:58:13Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z) - The Hidden Uncertainty in a Neural Networks Activations [105.4223982696279]
ニューラルネットワークの潜在表現の分布は、アウト・オブ・ディストリビューション(OOD)データの検出に成功している。
本研究は、この分布が、モデルの不確実性と相関しているかどうかを考察し、新しい入力に一般化する能力を示す。
論文 参考訳(メタデータ) (2020-12-05T17:30:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。