論文の概要: Inconsistency, Instability, and Generalization Gap of Deep Neural
Network Training
- arxiv url: http://arxiv.org/abs/2306.00169v2
- Date: Sun, 29 Oct 2023 13:04:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-31 21:52:52.453890
- Title: Inconsistency, Instability, and Generalization Gap of Deep Neural
Network Training
- Title(参考訳): 深部ニューラルネットワークトレーニングの不整合・不安定・一般化ギャップ
- Authors: Rie Johnson and Tong Zhang
- Abstract要約: 不整合は、損失景観の鋭さよりも、一般化ギャップの信頼性の高い指標であることを示す。
この結果は、共蒸留やアンサンブルといった既存の手法の理論的基盤も提供する。
- 参考スコア(独自算出の注目度): 14.871738070617491
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As deep neural networks are highly expressive, it is important to find
solutions with small generalization gap (the difference between the performance
on the training data and unseen data). Focusing on the stochastic nature of
training, we first present a theoretical analysis in which the bound of
generalization gap depends on what we call inconsistency and instability of
model outputs, which can be estimated on unlabeled data. Our empirical study
based on this analysis shows that instability and inconsistency are strongly
predictive of generalization gap in various settings. In particular, our
finding indicates that inconsistency is a more reliable indicator of
generalization gap than the sharpness of the loss landscape. Furthermore, we
show that algorithmic reduction of inconsistency leads to superior performance.
The results also provide a theoretical basis for existing methods such as
co-distillation and ensemble.
- Abstract(参考訳): ディープニューラルネットワークは非常に表現力が高いため、小さな一般化ギャップ(トレーニングデータのパフォーマンスと目に見えないデータとの差)のソリューションを見つけることが重要である。
まず,トレーニングの確率的性質に着目し,一般化ギャップの境界がモデル出力の不整合と不安定性に依存する理論的解析を行い,ラベルなしデータを用いて推定する。
この分析に基づく実証研究により,不安定性と不整合性は様々な環境における一般化ギャップを強く予測できることが示された。
特に,不整合は,損失景観の鋭さよりも,一般化ギャップの信頼性の高い指標であることが示唆された。
さらに,不整合のアルゴリズム的低減が優れた性能をもたらすことを示す。
この結果は、共蒸留やアンサンブルといった既存の手法の理論的基盤も提供する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - On the Importance of Feature Separability in Predicting
Out-Of-Distribution Error [25.995311155942016]
そこで本研究では,分布シフト時のテスト精度を推定するために,特徴分散に基づくデータセットレベルスコアを提案する。
本手法は,表現学習における特徴の望ましい特性,すなわちクラス間分散とクラス内コンパクト性に着想を得たものである。
論文 参考訳(メタデータ) (2023-03-27T09:52:59Z) - Using Focal Loss to Fight Shallow Heuristics: An Empirical Analysis of
Modulated Cross-Entropy in Natural Language Inference [0.0]
一部のデータセットでは、深層ニューラルネットワークが学習プロセスのショートカットを可能にする基盤を発見し、結果として一般化能力が低下する。
標準のクロスエントロピーを使う代わりに、焦点損失と呼ばれる変調されたクロスエントロピーが、基礎を使わずに一般化性能を向上させるためにモデルを制約できるかどうかを検討する。
自然言語推論実験により, 焦点損失は学習過程に一定の影響を与え, 分布外データの精度は向上するが, 分布内データの性能はわずかに低下することがわかった。
論文 参考訳(メタデータ) (2022-11-23T22:19:00Z) - On the generalization of learning algorithms that do not converge [54.122745736433856]
ディープラーニングの一般化解析は、訓練が一定の点に収束すると仮定するのが一般的である。
最近の結果は、実際には勾配降下に最適化されたディープニューラルネットワークの重みは、しばしば無限に振動することを示している。
論文 参考訳(メタデータ) (2022-08-16T21:22:34Z) - Distribution of Classification Margins: Are All Data Equal? [61.16681488656473]
我々は理論的に動機付け、トレーニングセット上のマージン分布の曲線の下の領域が実際は一般化のよい尺度であることを実証的に示す。
結果として生じる"高いキャパシティ"機能のサブセットは、異なるトレーニング実行間で一貫性がない。
論文 参考訳(メタデータ) (2021-07-21T16:41:57Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint [35.5156045701898]
各タスクの損失関数の2階Taylor近似として定式化することにより、正規化に基づく連続学習の新しい視点を提供する。
この観点から、正規化に基づく連続学習の最適化側面(収束)と一般化特性(有限サンプル保証)を考察する。
論文 参考訳(メタデータ) (2020-06-19T06:08:40Z) - On the Benefits of Invariance in Neural Networks [56.362579457990094]
データ拡張によるトレーニングは、リスクとその勾配をよりよく見積もることを示し、データ拡張でトレーニングされたモデルに対して、PAC-Bayes一般化を提供する。
また,データ拡張と比べ,平均化は凸損失を伴う場合の一般化誤差を低減し,PAC-Bayes境界を狭めることを示した。
論文 参考訳(メタデータ) (2020-05-01T02:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。