論文の概要: Effective Dimension Aware Fractional-Order Stochastic Gradient Descent for Convex Optimization Problems
- arxiv url: http://arxiv.org/abs/2503.13764v1
- Date: Mon, 17 Mar 2025 22:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:15:15.121909
- Title: Effective Dimension Aware Fractional-Order Stochastic Gradient Descent for Convex Optimization Problems
- Title(参考訳): 凸最適化問題に対する分数次確率勾配の有効次元
- Authors: Mohammad Partohaghighi, Roummel Marcia, YangQuan Chen,
- Abstract要約: 2SEDFOSGD(2SED Fractional-Order Gradient Descent)はデータ駆動方式で分数指数を自動的に向上する手法である。
本研究では,この次元認識適応が分数メモリの利点を保ちながら,分数SGDでよく見られるスラジッシュな動作や不安定な動作を回避していることを示す。
- 参考スコア(独自算出の注目度): 2.5971517743176915
- License:
- Abstract: Fractional-order stochastic gradient descent (FOSGD) leverages a fractional exponent to capture long-memory effects in optimization, yet its practical impact is often constrained by the difficulty of tuning and stabilizing this exponent. In this work, we introduce 2SED Fractional-Order Stochastic Gradient Descent (2SEDFOSGD), a novel method that synergistically combines the Two-Scale Effective Dimension (2SED) algorithm with FOSGD to automatically calibrate the fractional exponent in a data-driven manner. By continuously gauging model sensitivity and effective dimensionality, 2SED dynamically adjusts the exponent to curb erratic oscillations and enhance convergence rates. Theoretically, we demonstrate how this dimension-aware adaptation retains the benefits of fractional memory while averting the sluggish or unstable behaviors frequently observed in naive fractional SGD. Empirical evaluations across multiple benchmarks confirm that our 2SED-driven fractional exponent approach not only converges faster but also achieves more robust final performance, suggesting broad applicability for fractional-order methodologies in large-scale machine learning and related domains.
- Abstract(参考訳): 分数次確率勾配勾配(FOSGD)は、分数指数を利用して最適化における長期記憶効果を捉えるが、この指数のチューニングと安定化の困難さによって、その実用的影響は制約されることが多い。
本研究では,2SEDアルゴリズムとFOSGDを相乗的に組み合わせてデータ駆動方式で分数指数を自動調整する2SEDFOSGD法を提案する。
2SEDはモデル感度と有効次元を連続的にゲージすることで、指数を動的に調整し、不規則振動を抑制し、収束率を高める。
理論的には、この次元認識適応が分数メモリの利点を保ちながら、素数SGDでよく見られるスラジッシュな動作や不安定な動作を回避しているかを実証する。
複数のベンチマークにわたる実証的な評価により、我々の2SED駆動の分数指数アプローチはより高速に収束するだけでなく、より堅牢な最終性能も達成し、大規模機械学習および関連ドメインにおける分数次方法論の広範な適用性を示している。
関連論文リスト
- Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - DOF: Accelerating High-order Differential Operators with Forward
Propagation [40.71528485918067]
一般の2階微分演算子を精度を損なわずに計算するための効率的なフレームワークである差分演算子(DOF)を提案する。
我々は、効率が2倍改善され、どんなアーキテクチャでもメモリ消費が削減されたことを実証する。
実験結果から,本手法は従来の自動微分法(AutoDiff)よりも優れ,構造が2倍,空間が20倍近く向上していることがわかった。
論文 参考訳(メタデータ) (2024-02-15T05:59:21Z) - Efficiency Ordering of Stochastic Gradient Descent [9.634481296779057]
我々は、任意のグラフ上のノイズやランダムウォークを含む一般的なサンプリングシーケンスによって駆動される勾配降下(SGD)アルゴリズムについて検討する。
我々は、マルコフ・チェイン・モンテカルロサンプリング器の性能を比較するためのよく分析されたツールである「効率順序付け」の概念を採用している。
論文 参考訳(メタデータ) (2022-09-15T16:50:55Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Fast Margin Maximization via Dual Acceleration [52.62944011696364]
指数関数的尾の損失を持つ線形分類器を訓練するための運動量に基づく手法を提案し,解析する。
この運動量に基づく法は、最大マルジン問題の凸双対、特にこの双対にネステロフ加速度を適用することによって導出される。
論文 参考訳(メタデータ) (2021-07-01T16:36:39Z) - Stochastic Reweighted Gradient Descent [4.355567556995855]
SRG(stochastic reweighted gradient)と呼ばれる重要サンプリングに基づくアルゴリズムを提案する。
我々は、提案手法の時間とメモリオーバーヘッドに特に注意を払っています。
我々はこの発見を裏付ける実験結果を示す。
論文 参考訳(メタデータ) (2021-03-23T04:09:43Z) - Hessian-Free High-Resolution Nesterov Acceleration for Sampling [55.498092486970364]
最適化のためのNesterovのAccelerated Gradient(NAG)は、有限のステップサイズを使用する場合の連続時間制限(ノイズなしの運動的ランゲヴィン)よりも優れたパフォーマンスを持つ。
本研究は, この現象のサンプリング法について検討し, 離散化により加速勾配に基づくMCMC法が得られる拡散過程を提案する。
論文 参考訳(メタデータ) (2020-06-16T15:07:37Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z) - Momentum Improves Normalized SGD [51.27183254738711]
モーメントを追加することで、目的に対する大きなバッチサイズの必要性を確実に排除できることを示す。
本稿では,ResNet-50 や BERT といった大規模タスクの事前学習において,提案手法が有効であることを示す。
論文 参考訳(メタデータ) (2020-02-09T07:00:54Z) - Robust Learning Rate Selection for Stochastic Optimization via Splitting
Diagnostic [5.395127324484869]
SplitSGDは最適化のための新しい動的学習スケジュールである。
本手法は,対象関数の局所的幾何への適応性を向上するために学習率を低下させる。
基本的には標準のSGDよりも計算コストがかかるわけではない。
論文 参考訳(メタデータ) (2019-10-18T19:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。