論文の概要: A unified law of robustness for Bregman divergence losses
- arxiv url: http://arxiv.org/abs/2405.16639v1
- Date: Sun, 26 May 2024 17:30:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 20:09:48.132905
- Title: A unified law of robustness for Bregman divergence losses
- Title(参考訳): ブレグマン発散損失に対する統一ロバスト性則
- Authors: Santanu Das, Jatin Batra, Piyush Srivastava,
- Abstract要約: 本稿では,ブレグマン分散損失が2乗損失とクロスエントロピー損失の共通一般化を形成することを示す。
我々の一般化は、ブベックとセルクの証明の中心にあるバイアス分散型分解の同定に依存する。
- 参考スコア(独自算出の注目度): 2.014089835498735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points $n$, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work that contributes to the considerable research that has been devoted to understand overparameterization, Bubeck, and Sellke showed that for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. However, their robustness results were proved only in the setting of regression with square loss. In practice, however many other kinds of losses are used, e.g. cross entropy loss for classification. In this work, we generalize Bubeck and Selke's result to Bregman divergence losses, which form a common generalization of square loss and cross-entropy loss. Our generalization relies on identifying a bias variance-type decomposition that lies at the heart of the proof and Bubeck and Sellke.
- Abstract(参考訳): 現代のディープラーニングの実践では、モデルはほとんどゼロの損失、すなわちトレーニングデータをほぼ補間するように訓練される。
しかし、モデル内のパラメータの数は、通常、補間に必要な理論上の最小値である$n$よりもはるかに多い:過パラメータ化と呼ばれる現象である。
オーバーパラメトリゼーションを理解するために費やされたかなりの研究に寄与する興味深い研究の中で、ブベックとセルケは、広い種類の共変量分布(特に測度集中の自然な概念を満たすもの)に対して、過パラメトリゼーションは堅牢な補間(すなわち補間関数がリプシッツであることが要求される場合)に必要であることを示した。
しかし, その頑健性は, 正方損失を伴う回帰の設定においてのみ証明された。
実際には、他の多くの種類の損失が使用されるが、例えば、分類のためのクロスエントロピー損失がある。
本研究では,ブベックとセルケの結果をブレグマン分散損失に一般化し,二乗損失とクロスエントロピー損失の共通一般化を形成する。
我々の一般化は、ブベックとセルクの証明の中心にあるバイアス分散型分解の同定に依存する。
関連論文リスト
- Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - More is Less: Inducing Sparsity via Overparameterization [2.885175627590247]
ディープラーニングでは、ニューラルネットワークを過度にパラメータ化する、すなわち、トレーニングサンプルよりも多くのパラメータを使用することが一般的である。
驚くほど驚くべきことに、(確率的な)勾配勾配によるニューラルネットワークを一般化すると、それは非常にうまく行く。
我々の証明は、流れのあるブレグマンの発散を分析することに依存している。
論文 参考訳(メタデータ) (2021-12-21T07:55:55Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Binary Classification of Gaussian Mixtures: Abundance of Support
Vectors, Benign Overfitting and Regularization [39.35822033674126]
生成ガウス混合モデルに基づく二項線形分類について検討する。
後者の分類誤差に関する新しい非漸近境界を導出する。
この結果は, 確率が一定である雑音モデルに拡張される。
論文 参考訳(メタデータ) (2020-11-18T07:59:55Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - Classification vs regression in overparameterized regimes: Does the loss
function matter? [21.75115239010008]
最小二乗最小ノルムで得られる解は、通常回帰に使用されるもので、ハードマージン支援ベクトルマシン(SVM)が生成したものと同一であることを示す。
本研究は, トレーニングフェーズ(最適化)とテストフェーズ(一般化)において, 損失関数の役割と特性が全く異なることを示すものである。
論文 参考訳(メタデータ) (2020-05-16T17:58:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。