論文の概要: Understanding Optimization in Deep Learning with Central Flows
- arxiv url: http://arxiv.org/abs/2410.24206v2
- Date: Thu, 25 Sep 2025 14:29:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.670324
- Title: Understanding Optimization in Deep Learning with Central Flows
- Title(参考訳): 中心流を用いた深層学習における最適化の理解
- Authors: Jeremy M. Cohen, Alex Damian, Ameet Talwalkar, J. Zico Kolter, Jason D. Lee,
- Abstract要約: 複雑な状態における最適化のダイナミクスを記述できる理論を開発する。
この結果から,ディープラーニングの最適化を推論する上で,中央フローが重要な理論ツールとなる可能性が示唆された。
- 参考スコア(独自算出の注目度): 95.5647720254338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional theories of optimization cannot describe the dynamics of optimization in deep learning, even in the simple setting of deterministic training. The challenge is that optimizers typically operate in a complex, oscillatory regime called the "edge of stability." In this paper, we develop theory that can describe the dynamics of optimization in this regime. Our key insight is that while the *exact* trajectory of an oscillatory optimizer may be challenging to analyze, the *time-averaged* (i.e. smoothed) trajectory is often much more tractable. To analyze an optimizer, we derive a differential equation called a "central flow" that characterizes this time-averaged trajectory. We empirically show that these central flows can predict long-term optimization trajectories for generic neural networks with a high degree of numerical accuracy. By interpreting these central flows, we are able to understand how gradient descent makes progress even as the loss sometimes goes up; how adaptive optimizers "adapt" to the local loss landscape; and how adaptive optimizers implicitly navigate towards regions where they can take larger steps. Our results suggest that central flows can be a valuable theoretical tool for reasoning about optimization in deep learning.
- Abstract(参考訳): 従来の最適化理論は、決定論的訓練の単純な設定であっても、ディープラーニングにおける最適化のダイナミクスを記述できない。
課題は、オプティマイザが一般に「安定性の端」と呼ばれる複雑な振動系で機能することである。
本稿では,この状態における最適化のダイナミクスを記述できる理論を開発する。
我々の重要な洞察は、振動オプティマイザの *exact* 軌道は解析が難しいかもしれないが、*time-averaged* (スムーズな) 軌道は、しばしばよりトラクタブルであるということである。
最適化器を解析するために、この時間平均軌道を特徴付ける「中央流」と呼ばれる微分方程式を導出する。
これらの中心流は、数値精度の高い汎用ニューラルネットワークの長期最適化軌道を予測できることを実証的に示す。
これらの中心的な流れを解釈することで、損失が時折増加するときでも勾配降下が進行する様子、局所的な損失状況に適応する最適化者がいかに適応するか、そして、より大きなステップを踏むことができる領域に向かって暗黙的に適応する最適化者かを理解することができる。
この結果から,ディープラーニングの最適化を推論する上で,中央フローが重要な理論ツールとなる可能性が示唆された。
関連論文リスト
- Reinforcement Learning for Accelerated Aerodynamic Shape Optimisation [0.0]
空気力学的形状最適化のための強化学習に基づく適応最適化アルゴリズムを提案する。
目的は、計算の労力を最小限に抑え、観測された最適化結果を用いて、発見された極限の解釈を行うことである。
論文 参考訳(メタデータ) (2025-07-23T09:14:25Z) - Optimizers Qualitatively Alter Solutions And We Should Leverage This [62.662640460717476]
ディープニューラルネットワーク(DNN)は、SGDのようなローカル情報のみを使用する場合、損失のグローバルな最小限に収束することを保証できない。
コミュニティは、既存のメソッドのバイアスを理解すること、また、ソリューションの特定の特性を誘発する明示的な意図で、新しいDNNを構築することを目的としている。
論文 参考訳(メタデータ) (2025-07-16T13:33:31Z) - Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Analyzing and Enhancing the Backward-Pass Convergence of Unrolled
Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。
本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。
Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文 参考訳(メタデータ) (2023-12-28T23:15:18Z) - Fine-Tuning Adaptive Stochastic Optimizers: Determining the Optimal Hyperparameter $ε$ via Gradient Magnitude Histogram Analysis [0.7366405857677226]
我々は、損失の大きさの経験的確率密度関数に基づく新しい枠組みを導入し、これを「緩やかな等級ヒストグラム」と呼ぶ。
そこで本稿では, 最適安全のための精密かつ高精度な探索空間を自動推定するために, 勾配等級ヒストグラムを用いた新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T04:34:19Z) - Understanding Optimization of Deep Learning via Jacobian Matrix and
Lipschitz Constant [18.592094066642364]
本稿では,ディープラーニングにおける最適化の包括的理解について述べる。
モデル表現能力の低下とトレーニング不安定性の低下につながる勾配消滅と勾配爆発の課題に焦点をあてる。
現在の最適化手法を理解するために、明示的な最適化と暗黙的な最適化の2つのクラスに分類する。
論文 参考訳(メタデータ) (2023-06-15T17:59:27Z) - Break a Lag: Triple Exponential Moving Average for Enhanced Optimization [2.0199251985015434]
本稿では,三重指数移動平均のパワーを利用する新しい最適化手法であるFAMEを紹介する。
FAMEはデータダイナミクスに対する応答性を高め、トレンド識別ラグを緩和し、学習効率を最適化する。
包括的評価は、画像分類、オブジェクト検出、セマンティックセグメンテーションを含む様々なコンピュータビジョンタスクを含み、FAMEを30の異なるアーキテクチャに統合する。
論文 参考訳(メタデータ) (2023-06-02T10:29:33Z) - Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。
1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。
本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文 参考訳(メタデータ) (2023-01-28T01:50:42Z) - Hybrid Decentralized Optimization: Leveraging Both First- and Zeroth-Order Optimizers for Faster Convergence [31.59453616577858]
分散システムは、よりノイズの多いゼロオーダーエージェントに耐えられるが、最適化プロセスにおいてそのようなエージェントの恩恵を受けることができる。
本研究の結果は,共同最適化作業に貢献しながらも,凸および非零次最適化の目的を達成できる。
論文 参考訳(メタデータ) (2022-10-14T10:54:11Z) - Moment Centralization based Gradient Descent Optimizers for
Convolutional Neural Networks [12.90962626557934]
コナールニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。
本稿では,CNNのためのモーメント集中型SGDデータセットを提案する。
提案されたモーメント集中は本質的には汎用的であり、既存の適応運動量ベースのいずれかと統合することができる。
論文 参考訳(メタデータ) (2022-07-19T04:38:01Z) - The Implicit Bias for Adaptive Optimization Algorithms on Homogeneous
Neural Networks [21.63353575405414]
同質ニューラルネットワークにおける適応最適化アルゴリズムの暗黙バイアスについて検討する。
非線形深部ニューラルネットワークにおける適応最適化の収束方向を研究する最初の研究である。
論文 参考訳(メタデータ) (2020-12-11T11:15:32Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Fast Rates for Contextual Linear Optimization [52.39202699484225]
提案手法は, 下流決定性能を直接最適化する手法よりもはるかに高速な, 後悔の収束率を実現する。
予測モデルは、既存のツールを使ったトレーニングが簡単かつ高速で、解釈が簡単で、私たちが示しているように、非常にうまく機能する決定につながる。
論文 参考訳(メタデータ) (2020-11-05T18:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。