論文の概要: Beyond Tikhonov: Faster Learning with Self-Concordant Losses via
Iterative Regularization
- arxiv url: http://arxiv.org/abs/2106.08855v1
- Date: Wed, 16 Jun 2021 15:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 22:53:52.559410
- Title: Beyond Tikhonov: Faster Learning with Self-Concordant Losses via
Iterative Regularization
- Title(参考訳): beyond tikhonov:反復正則化による自己一致損失による学習の高速化
- Authors: Gaspard Beugnot, Julien Mairal, Alessandro Rudi
- Abstract要約: 我々は、チコノフ正則化の理論を一般化された自己協和損失関数に拡張する。
反復的チコノフ正規化スキームを用いて, GSC に対して高速かつ最適な速度が得られることを示す。
- 参考スコア(独自算出の注目度): 120.31448970413298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The theory of spectral filtering is a remarkable tool to understand the
statistical properties of learning with kernels. For least squares, it allows
to derive various regularization schemes that yield faster convergence rates of
the excess risk than with Tikhonov regularization. This is typically achieved
by leveraging classical assumptions called source and capacity conditions,
which characterize the difficulty of the learning task. In order to understand
estimators derived from other loss functions, Marteau-Ferey et al. have
extended the theory of Tikhonov regularization to generalized self concordant
loss functions (GSC), which contain, e.g., the logistic loss. In this paper, we
go a step further and show that fast and optimal rates can be achieved for GSC
by using the iterated Tikhonov regularization scheme, which is intrinsically
related to the proximal point method in optimization, and overcomes the
limitation of the classical Tikhonov regularization.
- Abstract(参考訳): スペクトルフィルタリングの理論は、カーネルを用いた学習の統計的性質を理解するための顕著なツールである。
少なくとも二乗法は、チコノフ正則化よりも過度リスクの収束率を速くする様々な正則化スキームを導出することができる。
これは典型的には、学習課題の難しさを特徴づけるソース条件とキャパシティ条件と呼ばれる古典的な仮定を活用することで達成される。
他の損失関数に由来する推定値を理解するために、Marteau-Ferey et al。
ティホノフ正則化の理論を一般化された自己一致損失関数(gsc)へと拡張し、それらは例えばロジスティック損失を含む。
本稿では,最適化における近点法に本質的に関係している反復的チコノフ正則化スキームを用いて,GSCに対して高速かつ最適な速度が達成できることを示し,古典的チコノフ正則化の限界を克服する。
関連論文リスト
- Weakly Convex Regularisers for Inverse Problems: Convergence of Critical Points and Primal-Dual Optimisation [12.455342327482223]
臨界点の観点から収束正則化の一般化された定式化を提案する。
これは弱凸正規化器のクラスによって達成されることを示す。
この理論を正規化学習に適用し、入力の弱い凸ニューラルネットワークに対する普遍的な近似を証明した。
論文 参考訳(メタデータ) (2024-02-01T22:54:45Z) - Towards Demystifying the Generalization Behaviors When Neural Collapse
Emerges [132.62934175555145]
Neural Collapse(NC)は、トレーニング末期(TPT)におけるディープニューラルネットワークのよく知られた現象である
本稿では,列車の精度が100%に達した後も,継続訓練がテストセットの精度向上に繋がる理由を理論的に説明する。
我々はこの新たに発見された性質を「非保守的一般化」と呼ぶ。
論文 参考訳(メタデータ) (2023-10-12T14:29:02Z) - Hypothesis Transfer Learning with Surrogate Classification Losses:
Generalization Bounds through Algorithmic Stability [3.908842679355255]
仮説伝達学習(HTL)は、以前のタスクレバレッジを新たなターゲットにすることで、ドメイン適応と対比する。
本稿では,機械学習アルゴリズム解析のための魅力的な理論フレームワークであるアルゴリズム安定性によるHTLの学習理論について検討する。
論文 参考訳(メタデータ) (2023-05-31T09:38:21Z) - Small noise analysis for Tikhonov and RKHS regularizations [0.8133739801185272]
我々は、TikhonovとRKHSの正規化におけるノルムの効果を評価するための小さなノイズ分析フレームワークを構築した。
この枠組みは, 低雑音域における正規化推定器の収束率について検討し, 従来のL2正則化器の潜在的な不安定性を明らかにする。
驚くべき洞察は、これらの分数RKHSによる過度な平滑化は、常に最適な収束率をもたらすということである。
論文 参考訳(メタデータ) (2023-05-18T15:50:33Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - From inexact optimization to learning via gradient concentration [22.152317081922437]
本稿では,滑らかな損失関数を持つ線形モデルの文脈における現象について検討する。
本稿では、不正確な最適化と確率論、特に勾配集中のアイデアを組み合わせた証明手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T21:23:29Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。