論文の概要: A direct proof of a unified law of robustness for Bregman divergence losses
- arxiv url: http://arxiv.org/abs/2405.16639v4
- Date: Mon, 21 Apr 2025 12:53:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 15:56:10.638107
- Title: A direct proof of a unified law of robustness for Bregman divergence losses
- Title(参考訳): ブレグマン発散損失に対する統一ロバスト性則の直接証明
- Authors: Santanu Das, Jatin Batra, Piyush Srivastava,
- Abstract要約: バイアス分散型分解の観点から,Bubeck と Sellke の証明手法を再放送する。
我々の研究は、Bubeck と Sellke の証明技法のより一般的な理解を与え、その広範な実用性を実証する。
- 参考スコア(独自算出の注目度): 2.014089835498735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contemporary deep learning practice, models are often trained to near zero loss i.e. to nearly interpolate the training data. However, the number of parameters in the model is usually far more than the number of data points n, the theoretical minimum needed for interpolation: a phenomenon referred to as overparameterization. In an interesting piece of work, Bubeck and Sellke considered a natural notion of interpolation: the model is said to interpolate when the model's training loss goes below the loss of the conditional expectation of the response given the covariate. For this notion of interpolation and for a broad class of covariate distributions (specifically those satisfying a natural notion of concentration of measure), they showed that overparameterization is necessary for robust interpolation i.e. if the interpolating function is required to be Lipschitz. Their main proof technique applies to regression with square loss against a scalar response, but they remark that via a connection to Rademacher complexity and using tools such as the Ledoux-Talagrand contraction inequality, their result can be extended to more general losses, at least in the case of scalar response variables. In this work, we recast the original proof technique of Bubeck and Sellke in terms of a bias-variance type decomposition, and show that this view directly unlocks a generalization to Bregman divergence losses (even for vector-valued responses), without the use of tools such as Rademacher complexity or the Ledoux-Talagrand contraction principle. Bregman divergences are a natural class of losses since for these, the best estimator is the conditional expectation of the response given the covariate, and include other practical losses such as the cross entropy loss. Our work thus gives a more general understanding of the main proof technique of Bubeck and Sellke and demonstrates its broad utility.
- Abstract(参考訳): 現代のディープラーニングの実践では、モデルはほとんどゼロの損失、すなわちトレーニングデータをほぼ補間するように訓練される。
しかし、モデル内のパラメータの数は、通常、補間に必要な理論上の最小値であるデータ点数 n よりもはるかに多い。
興味深い作品の中で、ブベックとセルケは補間という自然な概念を考察し、モデルの訓練損失が共変量による応答の条件的期待の損失より低いときに補間すると言われている。
この補間の概念と、より広い種類の共変量分布(特に測度集中の自然な概念を満たすもの)に対して、彼らは強補間(すなわち補間関数がリプシッツであることが要求される場合)には過度パラメータ化が必要であることを示した。
彼らの主要な証明手法は、スカラー応答に対する2乗損失の回帰に適用されるが、ラデマッハ複雑性への接続やルドゥー・タラグランドの縮退不等式のようなツールを使うことで、少なくともスカラー応答変数の場合、より一般的な損失にまで拡張できる。
本研究では、バイアス分散型分解の観点からブベックとセルケの証明手法を再検討し、この見解は、ラデマッハ複雑性やルドゥー・タラグランド縮約原理のようなツールを使わずに、ブレグマンの発散損失(ベクトル値応答に対しても)への一般化を直接解き放つことを示す。
ブレグマンの発散は、これらの理由から自然に損失のクラスであり、最も優れた推定器は、共変量による応答の条件付き期待であり、交差エントロピー損失のような他の実用的な損失を含む。
そこで本研究では,Bubeck と Sellke の主な証明手法の理解を深め,その汎用性を実証する。
関連論文リスト
- Towards Self-Supervised Covariance Estimation in Deep Heteroscedastic Regression [102.24287051757469]
深部異方性回帰における自己教師付き共分散推定について検討する。
正規分布の間の2-ワッサーシュタイン距離の上界を導出する。
幅広い合成データセットと実データセットに対する実験により、提案された2-ワッサーシュタインと擬似ラベルアノテーションが結合した結果、計算的に安価で正確な深部ヘテロ代用回帰が導かれることが示された。
論文 参考訳(メタデータ) (2025-02-14T22:37:11Z) - Bias-variance decompositions: the exclusive privilege of Bregman divergences [0.8158530638728501]
軽度規則性条件下では,認識不能者の同一性を満たす連続的,非負の損失関数について検討する。
$g$-Bregman の発散は、変数の可逆変化を通じて標準的なブレグマン発散に変換することができる。
論文 参考訳(メタデータ) (2025-01-30T18:52:44Z) - Generalization bounds for regression and classification on adaptive covering input domains [1.4141453107129398]
一般化誤差の上限となる一般化境界に着目する。
分類タスクの場合、対象関数を1ホット、ピースワイド定数関数として扱い、誤差測定に0/1ロスを用いる。
論文 参考訳(メタデータ) (2024-07-29T05:40:08Z) - Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - Regularization properties of adversarially-trained linear regression [5.7077257711082785]
最先端の機械学習モデルは、非常に小さな入力摂動に対して脆弱である。
敵の訓練は、それに対して効果的なアプローチである。
論文 参考訳(メタデータ) (2023-10-16T20:09:58Z) - Structured Radial Basis Function Network: Modelling Diversity for
Multiple Hypotheses Prediction [51.82628081279621]
多重モード回帰は非定常過程の予測や分布の複雑な混合において重要である。
構造的放射基底関数ネットワークは回帰問題に対する複数の仮説予測器のアンサンブルとして提示される。
この構造モデルにより, このテッセルレーションを効率よく補間し, 複数の仮説対象分布を近似することが可能であることが証明された。
論文 参考訳(メタデータ) (2023-09-02T01:27:53Z) - Robust Bayesian Inference for Berkson and Classical Measurement Error Models [9.712913056924826]
測定誤差を扱うための非パラメトリックフレームワークを提案する。
古典的誤りモデルとバークソン誤りモデルの両方に適している。
回帰モデルの種類に応じて損失関数の選択に柔軟性を提供する。
論文 参考訳(メタデータ) (2023-06-02T11:48:15Z) - Cut your Losses with Squentropy [19.924900110707284]
ここでは、クロスエントロピー損失と、不正なクラスに対する平均平方損失という2つの項の和である「スカントロピー」損失を提案する。
その結果, スクエントロピーの損失は, 純粋なクロスエントロピーと再スケールした正方形損失の両方において, 分類精度において優れていた。
論文 参考訳(メタデータ) (2023-02-08T09:21:13Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - More is Less: Inducing Sparsity via Overparameterization [2.885175627590247]
ディープラーニングでは、ニューラルネットワークを過度にパラメータ化する、すなわち、トレーニングサンプルよりも多くのパラメータを使用することが一般的である。
驚くほど驚くべきことに、(確率的な)勾配勾配によるニューラルネットワークを一般化すると、それは非常にうまく行く。
我々の証明は、流れのあるブレグマンの発散を分析することに依存している。
論文 参考訳(メタデータ) (2021-12-21T07:55:55Z) - Understanding Square Loss in Training Overparametrized Neural Network
Classifiers [31.319145959402462]
過度にパラメータ化されたニューラルネットワークでどのように機能するかを体系的に検討することにより、分類における二乗損失の理論的理解に寄与する。
クラスが分離可能か否かに応じて2つのケースを考慮する。一般的な非分離可能の場合、誤分類率と校正誤差の両方について、高速収束率が確立される。
結果として得られるマージンはゼロから下界であることが証明され、ロバスト性の理論的な保証を提供する。
論文 参考訳(メタデータ) (2021-12-07T12:12:30Z) - Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。
この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文 参考訳(メタデータ) (2021-08-05T23:04:15Z) - KL Guided Domain Adaptation [88.19298405363452]
ドメイン適応は重要な問題であり、現実世界のアプリケーションにしばしば必要である。
ドメイン適応文学における一般的なアプローチは、ソースとターゲットドメインに同じ分布を持つ入力の表現を学ぶことである。
確率的表現ネットワークにより、KL項はミニバッチサンプルにより効率的に推定できることを示す。
論文 参考訳(メタデータ) (2021-06-14T22:24:23Z) - Fundamental Limits and Tradeoffs in Invariant Representation Learning [99.2368462915979]
多くの機械学習アプリケーションは、2つの競合する目標を達成する表現を学習する。
ミニマックスゲーム理論の定式化は、精度と不変性の基本的なトレードオフを表す。
分類と回帰の双方において,この一般的かつ重要な問題を情報論的に解析する。
論文 参考訳(メタデータ) (2020-12-19T15:24:04Z) - Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。
非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文 参考訳(メタデータ) (2020-12-09T16:48:03Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。
目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文 参考訳(メタデータ) (2020-05-26T16:26:17Z) - Classification vs regression in overparameterized regimes: Does the loss
function matter? [21.75115239010008]
最小二乗最小ノルムで得られる解は、通常回帰に使用されるもので、ハードマージン支援ベクトルマシン(SVM)が生成したものと同一であることを示す。
本研究は, トレーニングフェーズ(最適化)とテストフェーズ(一般化)において, 損失関数の役割と特性が全く異なることを示すものである。
論文 参考訳(メタデータ) (2020-05-16T17:58:25Z) - Imputation for High-Dimensional Linear Regression [8.841513006680886]
LASSOは乱数設定において最小推定率を保持することを示す。
この設定では、共同根源は未成年のままである。
論文 参考訳(メタデータ) (2020-01-24T19:54:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。