論文の概要: General Loss Functions Lead to (Approximate) Interpolation in High
Dimensions
- arxiv url: http://arxiv.org/abs/2303.07475v1
- Date: Mon, 13 Mar 2023 21:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 17:21:23.811103
- Title: General Loss Functions Lead to (Approximate) Interpolation in High
Dimensions
- Title(参考訳): 一般損失関数は高次元における(近似)補間をもたらす
- Authors: Kuo-Wei Lai, Vidya Muthukumar
- Abstract要約: 閉形式における勾配降下の暗黙バイアスを概ね特徴づける統一的な枠組みを提供する。
具体的には、暗黙バイアスが高次元の最小ノルムに近似されている(正確には同値ではない)ことを示す。
また,本フレームワークは,バイナリとマルチクラス設定間で指数関数的に制限された損失に対して,既存の正確な等価性を回復する。
- 参考スコア(独自算出の注目度): 6.738946307589741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a unified framework, applicable to a general family of convex
losses and across binary and multiclass settings in the overparameterized
regime, to approximately characterize the implicit bias of gradient descent in
closed form. Specifically, we show that the implicit bias is approximated (but
not exactly equal to) the minimum-norm interpolation in high dimensions, which
arises from training on the squared loss. In contrast to prior work which was
tailored to exponentially-tailed losses and used the intermediate
support-vector-machine formulation, our framework directly builds on the
primal-dual analysis of Ji and Telgarsky (2021), allowing us to provide new
approximate equivalences for general convex losses through a novel sensitivity
analysis. Our framework also recovers existing exact equivalence results for
exponentially-tailed losses across binary and multiclass settings. Finally, we
provide evidence for the tightness of our techniques, which we use to
demonstrate the effect of certain loss functions designed for
out-of-distribution problems on the closed-form solution.
- Abstract(参考訳): 閉形式における勾配降下の暗黙的バイアスを概ね特徴付けるために,一般の凸損失の家系,および過パラメータ化状態における二進的および多クラス的設定に適用可能な統一的な枠組みを提供する。
具体的には、暗黙バイアスは、正方形損失のトレーニングから生じる高次元における最小ノルム補間を近似する(正確には同値ではない)ことを示す。
指数的尾尾損失に適応し, 中間支持ベクトルマシンの定式化を用いた先行研究とは対照的に, 本フレームワークは, Ji と Telgarsky (2021) の原始双対解析に基づいて構築され, 新規な感度解析により一般凸損失に対する新しい近似等価性を提供する。
また,本フレームワークは,バイナリとマルチクラス設定間で指数関数的に制限された損失に対して,既存の正確な等価性を回復する。
最後に,本手法の厳密性を示す証拠を提示し,閉形式解に対する分布外問題のために設計された損失関数の効果を示す。
関連論文リスト
- The Implicit Bias of Gradient Descent on Separable Multiclass Data [38.05903703331163]
我々は、指数的尾特性のマルチクラス拡張を導入するために、置換同変と相対マージンベース(PERM)損失の枠組みを用いる。
提案手法は二分法の場合をよく反映しており,二分法と多分法のギャップを埋めるためのPERMフレームワークの威力を示すものである。
論文 参考訳(メタデータ) (2024-11-02T19:39:21Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Curvature-Independent Last-Iterate Convergence for Games on Riemannian
Manifolds [77.4346324549323]
本研究では, 多様体の曲率に依存しないステップサイズが, 曲率非依存かつ直線的最終点収束率を達成することを示す。
我々の知る限りでは、曲率非依存率や/または最終点収束の可能性はこれまでに検討されていない。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Expressive Losses for Verified Robustness via Convex Combinations [67.54357965665676]
本研究では, 過近似係数と異なる表現的損失に対する性能分布の関係について検討した。
表現性が不可欠である一方で、最悪の場合の損失のより良い近似は、必ずしも優れた堅牢性-正確性トレードオフに結びついていないことを示す。
論文 参考訳(メタデータ) (2023-05-23T12:20:29Z) - A Non-Asymptotic Moreau Envelope Theory for High-Dimensional Generalized
Linear Models [33.36787620121057]
ガウス空間の任意のクラスの線型予測器を示す新しい一般化境界を証明した。
私たちは、Zhou et al. (2021) の「最適化率」を直接回復するために、有限サンプルバウンドを使用します。
ローカライズされたガウス幅を用いた有界一般化の適用は、一般に経験的リスク最小化に対してシャープであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:16:55Z) - Stability vs Implicit Bias of Gradient Methods on Separable Data and
Beyond [33.593203156666746]
分離線形分類に適用された非正規化勾配に基づく学習手順の一般化特性に着目する。
この一般化についてさらに統一的な説明をし、実現可能性と自己有界性(self-boundedness)と呼ぶ。
これらのケースのいくつかでは、文献における既存の一般化誤差境界に対して、我々の境界は著しく改善される。
論文 参考訳(メタデータ) (2022-02-27T19:56:36Z) - Generalization Bounds via Convex Analysis [12.411844611718958]
連関出力分布の強い凸関数によって相互情報を置き換えることが可能であることを示す。
例えば、$p$-normの発散とワッサーシュタイン2距離の項で表される境界がある。
論文 参考訳(メタデータ) (2022-02-10T12:30:45Z) - Interpolation can hurt robust generalization even when there is no noise [76.3492338989419]
リッジの正規化による一般化の回避は,ノイズがなくても大幅に一般化できることを示す。
この現象は線形回帰と分類の両方のロバストなリスクを証明し、したがってロバストなオーバーフィッティングに関する最初の理論的結果を与える。
論文 参考訳(メタデータ) (2021-08-05T23:04:15Z) - Wide flat minima and optimal generalization in classifying
high-dimensional Gaussian mixtures [8.556763944288116]
非平衡クラスタにおいても,ベイズ最適一般化誤差を実現する構成が存在することを示す。
また,平均二乗誤差損失の幅の広い平らな最小値を目標とするアルゴリズム的ケースについても検討した。
論文 参考訳(メタデータ) (2020-10-27T01:32:03Z) - Domain Adaptation: Learning Bounds and Algorithms [80.85426994513541]
本稿では,任意の損失関数を持つ適応問題に適した分布距離,差分距離を新たに導入する。
広い損失関数族に対する領域適応のための新しい一般化境界を導出する。
また、正規化に基づくアルゴリズムの大規模クラスに対する新しい適応境界も提示する。
論文 参考訳(メタデータ) (2009-02-19T18:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。