論文の概要: Generalization Properties of Stochastic Optimizers via Trajectory
Analysis
- arxiv url: http://arxiv.org/abs/2108.00781v1
- Date: Mon, 2 Aug 2021 10:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-03 15:35:13.585554
- Title: Generalization Properties of Stochastic Optimizers via Trajectory
Analysis
- Title(参考訳): 軌道解析による確率最適化器の一般化特性
- Authors: Liam Hodgkinson, Umut \c{S}im\c{s}ekli, Rajiv Khanna, Michael W.
Mahoney
- Abstract要約: 本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
本稿では,Fernique-Talagrand関数と局所パワーローの両方が一般化性能の予測可能であることを示す。
- 参考スコア(独自算出の注目度): 48.38493838310503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the ubiquitous use of stochastic optimization algorithms in machine
learning, the precise impact of these algorithms on generalization performance
in realistic non-convex settings is still poorly understood. In this paper, we
provide an encompassing theoretical framework for investigating the
generalization properties of stochastic optimizers, which is based on their
dynamics. We first prove a generalization bound attributable to the optimizer
dynamics in terms of the celebrated Fernique-Talagrand functional applied to
the trajectory of the optimizer. This data- and algorithm-dependent bound is
shown to be the sharpest possible in the absence of further assumptions. We
then specialize this result by exploiting the Markovian structure of stochastic
optimizers, deriving generalization bounds in terms of the (data-dependent)
transition kernels associated with the optimization algorithms. In line with
recent work that has revealed connections between generalization and
heavy-tailed behavior in stochastic optimization, we link the generalization
error to the local tail behavior of the transition kernels. We illustrate that
the local power-law exponent of the kernel acts as an effective dimension,
which decreases as the transitions become "less Gaussian". We support our
theory with empirical results from a variety of neural networks, and we show
that both the Fernique-Talagrand functional and the local power-law exponent
are predictive of generalization performance.
- Abstract(参考訳): 機械学習における確率最適化アルゴリズムのユビキタスな使用にもかかわらず、現実的な非凸設定における一般化性能に対するこれらのアルゴリズムの正確な影響はいまだに理解されていない。
本稿では,その動力学に基づく確率的最適化器の一般化特性を調べるための包括的理論的枠組みを提案する。
まず、オプティマイザの軌道に適用されるフェルニク・タラグランド関数の有名な項で、オプティマイザダイナミクスに起因する有界な一般化を証明する。
このデータとアルゴリズムに依存した境界は、さらなる仮定がなければ最もシャープであることが示されている。
次に、確率最適化器のマルコフ構造を利用して、最適化アルゴリズムに関連する(データ依存)遷移カーネルの一般化境界を導出した。
確率最適化における一般化と重み付き挙動の関連を明らかにする最近の研究に合わせて、一般化誤差と遷移カーネルの局所的テール挙動をリンクする。
本稿では、カーネルの局所的なパワーロー指数が有効次元として作用し、遷移が「非ガウス」となるにつれて減少することを示す。
我々は,様々なニューラルネットワークを用いた実験結果を用いて,我々の理論を支持するとともに,fernique-talagrand functional とlocal power-law exponent の両方が一般化性能を予測できることを示した。
関連論文リスト
- The Unified Balance Theory of Second-Moment Exponential Scaling Optimizers in Visual Tasks [4.309676284145538]
SGDと適応性はより広い推論の下で統一可能であることを示唆する。
いくつかの古典的データセットやネットワーク上で,バランス係数の違いがトレーニングプロセス全体に与える影響を確認する試験を行った。
論文 参考訳(メタデータ) (2024-05-28T18:09:22Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Revisiting Optimal Convergence Rate for Smooth and Non-convex Stochastic
Decentralized Optimization [25.831902182404388]
分散最適化は、大規模機械学習におけるコミュニケーションの節約に有効である。
本稿では,一般重量行列を用いた最適収束アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-14T14:34:32Z) - Exploring the Algorithm-Dependent Generalization of AUPRC Optimization
with List Stability [107.65337427333064]
AUPRC(Area Under the Precision-Recall Curve)の最適化は、機械学習にとって重要な問題である。
本研究では, AUPRC最適化の単依存一般化における最初の試行について述べる。
3つの画像検索データセットの実験は、我々のフレームワークの有効性と健全性に言及する。
論文 参考訳(メタデータ) (2022-09-27T09:06:37Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Directed particle swarm optimization with Gaussian-process-based
function forecasting [15.733136147164032]
パーティクルスワム最適化 (PSO) は、探索空間を囲む一組の候補解を、ランダム化されたステップ長を持つ最もよく知られたグローバルおよびローカルな解へ移動させる反復探索法である。
本アルゴリズムは探索的・搾取的行動に対して望ましい特性が得られることを示す。
論文 参考訳(メタデータ) (2021-02-08T13:02:57Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。