論文の概要: Arc Gradient Descent: A Mathematically Derived Reformulation of Gradient Descent with Phase-Aware, User-Controlled Step Dynamics
- arxiv url: http://arxiv.org/abs/2512.06737v1
- Date: Sun, 07 Dec 2025 09:03:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.498028
- Title: Arc Gradient Descent: A Mathematically Derived Reformulation of Gradient Descent with Phase-Aware, User-Controlled Step Dynamics
- Title(参考訳): Arc Gradient Descent: 位相を考慮したユーザ制御ステップダイナミクスによるGradient Descentの数学的変化
- Authors: Nikhil Verma, Joonas Linnosmaa, Espinosa-Leal Leonardo, Napat Vajragupta,
- Abstract要約: 本稿ではライオンオプティマイザの定式化と評価について述べる。
評価はまず、不適合な実装機能とベンチマークで実施される。
注目すべきは、AdamとAdamWは5,000で強力な初期イテレーションを見せたが、AdamGDは早期に停止することなく改善を続けたことである。
- 参考スコア(独自算出の注目度): 0.2770730728142587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The paper presents the formulation, implementation, and evaluation of the ArcGD optimiser. The evaluation is conducted initially on a non-convex benchmark function and subsequently on a real-world ML dataset. The initial comparative study using the Adam optimiser is conducted on a stochastic variant of the highly non-convex and notoriously challenging Rosenbrock function, renowned for its narrow, curved valley, across dimensions ranging from 2D to 1000D and an extreme case of 50,000D. Two configurations were evaluated to eliminate learning-rate bias: (i) both using ArcGD's effective learning rate and (ii) both using Adam's default learning rate. ArcGD consistently outperformed Adam under the first setting and, although slower under the second, achieved super ior final solutions in most cases. In the second evaluation, ArcGD is evaluated against state-of-the-art optimizers (Adam, AdamW, Lion, SGD) on the CIFAR-10 image classification dataset across 8 diverse MLP architectures ranging from 1 to 5 hidden layers. ArcGD achieved the highest average test accuracy (50.7%) at 20,000 iterations, outperforming AdamW (46.6%), Adam (46.8%), SGD (49.6%), and Lion (43.4%), winning or tying on 6 of 8 architectures. Notably, while Adam and AdamW showed strong early convergence at 5,000 iterations, but regressed with extended training, whereas ArcGD continued improving, demonstrating generalization and resistance to overfitting without requiring early stopping tuning. Strong performance on geometric stress tests and standard deep-learning benchmarks indicates broad applicability, highlighting the need for further exploration. Moreover, it is also shown that a variant of ArcGD can be interpreted as a special case of the Lion optimiser, highlighting connections between the inherent mechanisms of such optimisation methods.
- Abstract(参考訳): 本稿ではArcGDオプティマイザの定式化,実装,評価について述べる。
評価は最初は非凸ベンチマーク関数上で行われ、その後は実世界のMLデータセット上で行われる。
アダム・オプティミザーを用いた最初の比較研究は、非常に非凸で、非常に困難なローゼンブロック関数の確率的変種で行われ、2Dから1000Dの範囲と5万Dの極端な範囲にわたって、その狭い湾曲した谷で有名である。
学習速度バイアスを除去するために2つの構成を評価した。
(i)ArcGDの効果的な学習率と併用
(ii)Adamの既定の学習率を使用する。
ArcGDは第1設定で一貫してアダムを上回り、第2設定では遅いが、ほとんどの場合スーパー・アイア・ファイナル・ソリューションを達成した。
第2の評価では、CIFAR-10画像分類データセット上の最先端最適化(Adam、AdamW、Lion、SGD)に対して、1層から5層までの8種類のMLPアーキテクチャに対してArcGDを評価する。
ArcGDは平均テスト精度(50.7%)を20,000回に上り、AdamW(46.6%)、Adam(46.8%)、SGD(49.6%)、Lion(43.4%)を上回り、8つのアーキテクチャのうち6つのアーキテクチャで勝利または勝利を収めた。
特に、AdamとAdamWは5,000回のイテレーションで強い早期収束を示したが、ArcGDは改善を続け、早期停止チューニングを必要とせずにオーバーフィッティングに対する一般化と抵抗を示した。
幾何的ストレステストと標準的なディープラーニングベンチマークの強いパフォーマンスは、広範な適用性を示し、さらなる探索の必要性を強調している。
さらに、ArcGDの変種はライオンオプティマイザの特別な場合と解釈でき、そのような最適化方法の本質的なメカニズム間の関係を強調している。
関連論文リスト
- Comparative Analysis of Novel NIRMAL Optimizer Against Adam and SGD with Momentum [0.8437187555622164]
NIRMAL(Novel Integrated Robust Multi-Adaptation Learning)は、チェスの駒の動きにインスパイアされた複数の戦略を組み合わせた新しい最適化アルゴリズムである。
NIRMALは、特により困難なCIFAR-100データセットで、競争性能を達成する。
これらの知見は、様々なディープラーニングタスクのための汎用的で効果的なデータセットとして、NIRMALの有意義な能力を裏付けるものである。
論文 参考訳(メタデータ) (2025-08-06T10:30:22Z) - LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models [95.77351099118323]
Masked Diffusion Models (MDM) は言語モデリングにおいて有望なパラダイムである。
この課題は、優先最適化に必要なエビデンス・ロウアー・バウンド(ELBO)に基づく推定値の高分散から生じる。
本稿では,ELBO推定器の偏差を公式に解析し,優先最適化勾配の偏差と偏差を導出するフレームワークであるVRPOを提案する。
論文 参考訳(メタデータ) (2025-05-25T16:36:20Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - AdaGC: Improving Training Stability for Large Language Model Pretraining [18.163318397205533]
大きなLanguageText Models(LLM)は、スケーリング中に損失の急増に直面します。
グローバルなクリッピングがこれを緩和する一方で、従来のアプローチは特定のバリエーションを緩和する。
我々は,AdaGCがグローバルクリッピングよりも25%早く収束していることを示す。
論文 参考訳(メタデータ) (2025-02-16T08:13:23Z) - Deconstructing What Makes a Good Optimizer for Language Models [7.9224468703944115]
我々は,SGD,Adafactor,Adam,Lion,Sophiaなどの最適化アルゴリズムを比較した。
ハイパーパラメータの誤特定に対する性能や安定性の観点からは、明確な勝者として1つのアルゴリズムが現れることはなかった。
論文 参考訳(メタデータ) (2024-07-10T18:11:40Z) - Stochastic Re-weighted Gradient Descent via Distributionally Robust Optimization [14.23697277904244]
Reweighted Gradient Descent (RGD) は、動的サンプル再重み付けによりディープニューラルネットワークの性能を向上させる新しい最適化手法である。
本稿では,教師付き学習,メタラーニング,ドメイン外一般化など,様々な学習課題におけるRGDの有効性を示す。
論文 参考訳(メタデータ) (2023-06-15T15:58:04Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。