論文の概要: From Information to Generative Exponent: Learning Rate Induces Phase Transitions in SGD
- arxiv url: http://arxiv.org/abs/2510.21020v1
- Date: Thu, 23 Oct 2025 22:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.32877
- Title: From Information to Generative Exponent: Learning Rate Induces Phase Transitions in SGD
- Title(参考訳): 情報から生成指数へ:学習速度はSGDの相転移を誘導する
- Authors: Konstantinos Christopher Tsiolis, Alireza Mousavi-Hosseini, Murat A. Erdogdu,
- Abstract要約: 本稿では,幅広い勾配に基づくアルゴリズムの学習率とサンプルの複雑性の関係を特徴付ける。
学習率の低い「情報指数系」から、学習率の大きい「生成指数系」に相転移があることを実証する。
- 参考スコア(独自算出の注目度): 24.623693376876602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To understand feature learning dynamics in neural networks, recent theoretical works have focused on gradient-based learning of Gaussian single-index models, where the label is a nonlinear function of a latent one-dimensional projection of the input. While the sample complexity of online SGD is determined by the information exponent of the link function, recent works improved this by performing multiple gradient steps on the same sample with different learning rates -- yielding a non-correlational update rule -- and instead are limited by the (potentially much smaller) generative exponent. However, this picture is only valid when these learning rates are sufficiently large. In this paper, we characterize the relationship between learning rate(s) and sample complexity for a broad class of gradient-based algorithms that encapsulates both correlational and non-correlational updates. We demonstrate that, in certain cases, there is a phase transition from an "information exponent regime" with small learning rate to a "generative exponent regime" with large learning rate. Our framework covers prior analyses of one-pass SGD and SGD with batch reuse, while also introducing a new layer-wise training algorithm that leverages a two-timescales approach (via different learning rates for each layer) to go beyond correlational queries without reusing samples or modifying the loss from squared error. Our theoretical study demonstrates that the choice of learning rate is as important as the design of the algorithm in achieving statistical and computational efficiency.
- Abstract(参考訳): ニューラルネットワークにおける特徴学習のダイナミクスを理解するために、近年の理論的研究はガウスの単一インデックスモデルの勾配に基づく学習に焦点を当てている。
オンラインSGDのサンプル複雑性はリンク関数の情報指数によって決定されるが、最近の研究は、異なる学習率で同じサンプルに対して複数の勾配ステップを実行することで改善されている。
しかし、この画像はこれらの学習率が十分に大きい場合にのみ有効である。
本稿では,相関関係の更新と非相関関係の更新の両方をカプセル化した,幅広い勾配に基づくアルゴリズムの学習率とサンプル複雑性の関係を特徴付ける。
学習率の低い「情報指数系」から、学習率の大きい「生成指数系」に相転移があることを実証する。
本フレームワークでは,1パスのSGDとSGDをバッチの再利用で事前解析すると同時に,2時間スケールのアプローチ(各レイヤの学習率の違いによる)を活用して,サンプルの再利用や2乗誤差による損失の修正を行なわずに相関クエリを克服する,新たなレイヤワイズトレーニングアルゴリズムを導入する。
理論的には,学習率の選択は,統計的および計算効率の達成において,アルゴリズムの設計と同じくらい重要であることを示す。
関連論文リスト
- Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - NTKCPL: Active Learning on Top of Self-Supervised Model by Estimating
True Coverage [3.4806267677524896]
ニューラル・タンジェント・カーネル・クラスタリング・プシュード・ラベル(NTKCPL)の新しいアクティブ・ラーニング・ストラテジーを提案する。
擬似ラベルとNTK近似を用いたモデル予測に基づいて経験的リスクを推定する。
提案手法を5つのデータセット上で検証し,ほとんどの場合,ベースライン法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-07T01:43:47Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。
それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文 参考訳(メタデータ) (2022-08-08T11:51:01Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Cooperative Deep $Q$-learning Framework for Environments Providing Image
Feedback [5.607676459156789]
本稿では, 深層強化学習, サンプル非効率性, 遅い学習の2つの課題を, NN駆動学習の2つのアプローチで解決する。
特に、時間差(TD)誤差駆動学習手法を開発し、TD誤差の線形変換のセットを導入し、ディープNNの各層のパラメータを直接更新する。
提案手法は学習と収束を高速化し,バッファサイズの削減を必要とすることを示す。
論文 参考訳(メタデータ) (2021-10-28T17:12:41Z) - Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。
CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。
また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文 参考訳(メタデータ) (2021-06-20T04:28:20Z) - Exploring Complementary Strengths of Invariant and Equivariant
Representations for Few-Shot Learning [96.75889543560497]
多くの現実世界では、多数のラベル付きサンプルの収集は不可能です。
少ないショット学習はこの問題に対処するための主要なアプローチであり、目的は限られた数のサンプルの存在下で新しいカテゴリに迅速に適応することです。
幾何学的変換の一般集合に対する等分散と不変性を同時に強制する新しい訓練機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T21:14:33Z) - Fast Reinforcement Learning with Incremental Gaussian Mixture Models [0.0]
Incrmental Gaussian Mixture Network (IGMN)と呼ばれる単一パスから学習可能なオンラインおよびインクリメンタルなアルゴリズムが、結合状態とQ値空間のためのサンプル効率関数近似器として採用された。
IGMN関数近似器の使用は、勾配降下法で訓練された従来のニューラルネットワークと比較して、強化学習に重要な利点をもたらすことが観察された。
論文 参考訳(メタデータ) (2020-11-02T03:18:15Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。