論文の概要: Towards Guided Descent: Optimization Algorithms for Training Neural Networks At Scale
- arxiv url: http://arxiv.org/abs/2512.18373v1
- Date: Sat, 20 Dec 2025 14:20:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.308678
- Title: Towards Guided Descent: Optimization Algorithms for Training Neural Networks At Scale
- Title(参考訳): Guided Descentに向けて - 大規模ニューラルネットワークのトレーニングのための最適化アルゴリズム
- Authors: Ansh Nagwekar,
- Abstract要約: この論文は、古典的な一階法から近代的な高階法への最適化アルゴリズムの進化を研究する。
この分析は、現実世界のデータを表す異方性に直面する従来のアプローチの限界を明らかにする。
次に、これらの最適化アルゴリズムとより広範なニューラルネットワークトレーニングツールキットとの相互作用は、経験的成功に等しく不可欠である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural network optimization remains one of the most consequential yet poorly understood challenges in modern AI research, where improvements in training algorithms can lead to enhanced feature learning in foundation models, order-of-magnitude reductions in training time, and improved interpretability into how networks learn. While stochastic gradient descent (SGD) and its variants have become the de facto standard for training deep networks, their success in these over-parameterized regimes often appears more empirical than principled. This thesis investigates this apparent paradox by tracing the evolution of optimization algorithms from classical first-order methods to modern higher-order techniques, revealing how principled algorithmic design can demystify the training process. Starting from first principles with SGD and adaptive gradient methods, the analysis progressively uncovers the limitations of these conventional approaches when confronted with anisotropy that is representative of real-world data. These breakdowns motivate the exploration of sophisticated alternatives rooted in curvature information: second-order approximation techniques, layer-wise preconditioning, adaptive learning rates, and more. Next, the interplay between these optimization algorithms and the broader neural network training toolkit, which includes prior and recent developments such as maximal update parametrization, learning rate schedules, and exponential moving averages, emerges as equally essential to empirical success. To bridge the gap between theoretical understanding and practical deployment, this paper offers practical prescriptions and implementation strategies for integrating these methods into modern deep learning workflows.
- Abstract(参考訳): ニューラルネットワークの最適化は、トレーニングアルゴリズムの改善によって基礎モデルにおける機能学習の強化、トレーニング時間のオーダー・オブ・マグニチュードの削減、ネットワークの学習方法の解釈可能性の向上など、現代AI研究で最も重要かつ理解されていない課題の1つだ。
確率勾配降下(SGD)とその変種はディープネットワークの訓練のデファクトスタンダードとなっているが、これらの過度なパラメータ化された体制における成功は、原則よりも経験的に見えることが多い。
この論文は、古典的な一階法から近代的な高階法への最適化アルゴリズムの進化をトレースすることで、この明らかなパラドックスを解明し、アルゴリズム設計の原則がトレーニングプロセスをどのようにデミステライズするかを明らかにする。
SGD法と適応勾配法の最初の原理から、実世界のデータを表す異方性に直面すると、これらの従来のアプローチの限界が徐々に明らかになる。
これらの分解は、二階近似技術、レイヤワイドプレコンディショニング、適応学習率など、曲率情報に根ざした洗練された代替品の探索を動機付けている。
次に、これらの最適化アルゴリズムと、最大更新パラメトリゼーション、学習率スケジュール、指数移動平均といった、前と最近の開発を含む広範なニューラルネットワークトレーニングツールキットの相互作用が、経験的成功に等しく不可欠である。
本稿では,理論的理解と実践的展開のギャップを埋めるために,これらの手法を現代のディープラーニングワークフローに統合するための実践的な処方と実装戦略を提供する。
関連論文リスト
- Training Neural Networks at Any Scale [57.048948400182354]
本稿では、効率とスケールを重視したニューラルネットワークのトレーニングのための最新の最適化手法についてレビューする。
本稿では,問題の構造に適応することの重要性を強調する統一的アルゴリズムテンプレートの下で,最先端の最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-14T10:58:07Z) - Novel Saliency Analysis for the Forward Forward Algorithm [0.0]
ニューラルネットワークトレーニングにフォワードフォワードアルゴリズムを導入する。
この方法は、2つのフォワードパスを実際のデータで実行し、正の強化を促進する。
従来のサリエンシ手法に固有の制約を克服するため,フォワードフォワードフレームワークに特化してベスポークサリエンシアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-18T17:21:59Z) - Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
機械学習の創発は、トレーニングデータのスケールと構造から生じる能力の自発的な出現を指す。
我々は、出現の可能性を高めることを目的とした、新しい単純なニューラルネットワーク初期化スキームを導入する。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文 参考訳(メタデータ) (2021-07-20T12:17:55Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。