論文の概要: Generalization Error of First-Order Methods for Statistical Learning
with Generic Oracles
- arxiv url: http://arxiv.org/abs/2307.04679v1
- Date: Mon, 10 Jul 2023 16:29:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:22:01.552043
- Title: Generalization Error of First-Order Methods for Statistical Learning
with Generic Oracles
- Title(参考訳): 一般オラクルを用いた統計的学習のための一階法一般化誤差
- Authors: Kevin Scaman, Mathieu Even and Laurent Massouli\'e
- Abstract要約: 統計的学習のための一階最適化アルゴリズムの一般化誤差の解析のためのフレームワークを提供する。
標準的な教師付き学習では、バッチサイズの増加とウォームスタートによるミニバッチ勾配降下が、乗算係数に最適な一般化誤差に達することが示されている。
- 参考スコア(独自算出の注目度): 15.710088225806299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a novel framework for the analysis of
generalization error of first-order optimization algorithms for statistical
learning when the gradient can only be accessed through partial observations
given by an oracle. Our analysis relies on the regularity of the gradient
w.r.t. the data samples, and allows to derive near matching upper and lower
bounds for the generalization error of multiple learning problems, including
supervised learning, transfer learning, robust learning, distributed learning
and communication efficient learning using gradient quantization. These results
hold for smooth and strongly-convex optimization problems, as well as smooth
non-convex optimization problems verifying a Polyak-Lojasiewicz assumption. In
particular, our upper and lower bounds depend on a novel quantity that extends
the notion of conditional standard deviation, and is a measure of the extent to
which the gradient can be approximated by having access to the oracle. As a
consequence, our analysis provides a precise meaning to the intuition that
optimization of the statistical learning objective is as hard as the estimation
of its gradient. Finally, we show that, in the case of standard supervised
learning, mini-batch gradient descent with increasing batch sizes and a warm
start can reach a generalization error that is optimal up to a multiplicative
factor, thus motivating the use of this optimization scheme in practical
applications.
- Abstract(参考訳): 本稿では,oracle が与える部分的観測によってのみグラデーションにアクセス可能な場合,統計学習のための一階最適化アルゴリズムの一般化誤差解析のための新しい枠組みを提案する。
本分析は,データサンプルの勾配 w.r.t. の正則性に依存し,教師付き学習,転送学習,ロバスト学習,分散学習,勾配量子化を用いたコミュニケーション効率の良い学習など,複数の学習問題の一般化誤差の上限付近を導出する。
これらの結果は、滑らかで強凸な最適化問題と、Polyak-Lojasiewicz仮定を検証する滑らかな非凸最適化問題に成り立つ。
特に、我々の上界と下界は条件付き標準偏差の概念を拡張する新しい量に依存しており、オラクルへのアクセスによって勾配が近似できる範囲の尺度である。
その結果,統計的学習目標の最適化は,その勾配の推定と同等に難しいという直観への正確な意味が得られた。
最後に、標準的な教師付き学習の場合、バッチサイズの増加とウォームスタートを伴うミニバッチ勾配勾配は、乗算係数に最適化された一般化誤差に到達し、この最適化手法を実用的な応用に活用する動機となることを示す。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - Taylor Learning [0.0]
経験的リスク最小化は、教師付き機械学習におけるほとんどの最適化の背後にある。
本稿では,勾配降下や経験的リスク最小化を用いない実解析関数モデルを構築するための学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:10:58Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Robust supervised learning with coordinate gradient descent [0.0]
偏微分のロバストな推定器を併用した学習アルゴリズムとして座標勾配降下法を提案する。
これにより、非破壊的な数値的な複雑性を持つ頑健な統計的学習法が導かれる。
論文 参考訳(メタデータ) (2022-01-31T17:33:04Z) - Keep it Tighter -- A Story on Analytical Mean Embeddings [0.6445605125467574]
カーネル技術は、データサイエンスにおいて最も人気があり柔軟なアプローチの一つである。
平均埋め込みは、最大平均不一致(MMD)と呼ばれる分岐測度をもたらす。
本稿では,基礎となる分布の1つの平均埋め込みが解析的に利用可能である場合のMDD推定の問題に焦点をあてる。
論文 参考訳(メタデータ) (2021-10-15T21:29:27Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。