論文の概要: High dimensional theory of two-phase optimizers
- arxiv url: http://arxiv.org/abs/2603.26954v1
- Date: Fri, 27 Mar 2026 19:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.709756
- Title: High dimensional theory of two-phase optimizers
- Title(参考訳): 2相オプティマイザの高次元理論
- Authors: Atish Agarwala,
- Abstract要約: 本研究では、高次元線形回帰問題において、DiLoCoファミリーの単純成分であるLA-DiLoCoの解析を行う。
LAはSGDとは異なる信号とノイズのトレードオフを提供しており、多くのシナリオで有益であることを示す。
2つの運動量演算子を積み重ねることで加速の機会が得られることを示す。
- 参考スコア(独自算出の注目度): 9.00460048274479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The trend towards larger training setups has brought a renewed interest in partially asynchronous two-phase optimizers which optimize locally and then synchronize across workers. Additionally, recent work suggests that the one-worker version of one of these algorithms, DiLoCo, shows promising results as a (synchronous) optimizer. Motivated by these studies we present an analysis of LA-DiLoCo, a simple member of the DiLoCo family, on a high-dimensional linear regression problem. We show that the one-worker variant, LA, provides a different tradeoff between signal and noise than SGD, which is beneficial in many scenarios. We also show that the multi-worker version generates more noise than the single worker version, but that this additional noise generation can be ameliorated by appropriate choice of hyperparameters. We conclude with an analysis of SLA -- LA with momentum -- and show that stacking two momentum operators gives an opportunity for acceleration via a non-linear transformation of the "effective'' Hessian spectrum, which is maximized for Nesterov momentum. Altogether our results show that two-phase optimizers represent a fruitful new paradigm for understanding and improving training algorithms.
- Abstract(参考訳): より大きなトレーニング設定へのトレンドは、部分的に非同期の2フェーズオプティマイザに新たな関心を呼び、ローカルに最適化し、ワーカー間で同期する。
さらに、最近の研究は、これらのアルゴリズムの1つであるDiLoCoが、(同期)オプティマイザとして有望な結果を示していることを示唆している。
これらの研究により、高次元線形回帰問題において、DiLoCoファミリーの単純メンバーであるLA-DiLoCoを解析した。
LAは信号と雑音のトレードオフをSGDと異なり,多くのシナリオで有用であることを示す。
また、マルチワーカーバージョンは、単一ワーカーバージョンよりもノイズを発生させるが、この付加ノイズ生成は、ハイパーパラメータの適切な選択によって改善できることを示す。
我々は SLA -- 運動量を持つLA -- を解析し、2つの運動量作用素を積み重ねることで、ネステロフ運動量に対して最大となる「有効」ヘッセンスペクトルの非線形変換による加速の機会を与えることを示した。
以上の結果から,2相最適化は学習アルゴリズムの理解と改善のための実りある新しいパラダイムであることが示された。
関連論文リスト
- Gradient Descent as a Perceptron Algorithm: Understanding Dynamics and Implicit Acceleration [67.12978375116599]
勾配降下(GD)のステップが一般化されたパーセプトロンアルゴリズムのステップに還元されることを示す。
これは、ニューラルネットワークで観測される最適化力学と暗黙の加速現象を説明するのに役立つ。
論文 参考訳(メタデータ) (2025-12-12T14:16:35Z) - A Trainable Optimizer [18.195022468462753]
モデルの全勾配推定器とトレーニング可能な重みを共同で訓練する枠組みを提案する。
Pseudo-linear TOは無視可能な計算オーバーヘッドを発生させ、最小限の乗算しか必要としない。
実験により、TOメソッドはベンチマークアルゴリズムよりも早く収束することが示された。
論文 参考訳(メタデータ) (2025-08-03T14:06:07Z) - Toward Theoretical Insights into Diffusion Trajectory Distillation via Operator Merging [10.315743300140966]
拡散軌道蒸留は、高品質な出力を生成するがサンプリング速度の遅い拡散モデルのサンプリングを加速することを目的としている。
信号の忠実度を最大に保存する最適なマージ戦略を計算するためのプログラミングアルゴリズムを提案する。
本研究は, 拡散軌道蒸留の理論的理解を高め, 蒸留戦略改善のための実践的洞察を提供するものである。
論文 参考訳(メタデータ) (2025-05-21T21:13:02Z) - Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - Seesaw: High-throughput LLM Inference via Model Re-sharding [8.840996987380484]
本稿ではスループット指向タスクに最適化された推論エンジンであるSeesawを紹介する。
Seesawの背景にある主要なアイデアは、並列化戦略の動的再構成を容易にする技術である動的モデル再シャーディングである。
論文 参考訳(メタデータ) (2025-03-09T04:14:06Z) - Optimizing Asynchronous Federated Learning: A Delicate Trade-Off Between Model-Parameter Staleness and Update Frequency [2.1990852305468533]
同期フェデレーションラーニング(FL)は、ストラグラー効果によりクライアント数に悪影響を及ぼす。
本研究では,非同期FLアルゴリズムにおける設計選択の影響をよりよく理解するために,モデリングと解析に頼っている。
特に,モデルパラメータの安定化を回避し,勾配推定誤差の最小化という,非同期FLの最適化のための基本的なトレードオフを特徴付ける。
論文 参考訳(メタデータ) (2025-02-12T08:38:13Z) - Bidirectional Looking with A Novel Double Exponential Moving Average to
Adaptive and Non-adaptive Momentum Optimizers [109.52244418498974]
我々は,新しいtextscAdmeta(textbfADouble指数textbfMov averagtextbfE textbfAdaptiveおよび非適応運動量)フレームワークを提案する。
我々は、textscAdmetaR と textscAdmetaS の2つの実装を提供し、前者は RAdam を、後者は SGDM をベースとしています。
論文 参考訳(メタデータ) (2023-07-02T18:16:06Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Temporal Difference Learning with Compressed Updates: Error-Feedback meets Reinforcement Learning [47.904127007515925]
本稿では,従来の時間差学習アルゴリズムの変種について検討する。
我々は、圧縮されたTDアルゴリズムと、最適化に広く用いられているエラーフィードバック機構が組み合わさって、漸近的でない近似を保証することを証明した。
特に、これらは一般圧縮演算子と線形関数近似とマルコフサンプリングを併用したタンデムの誤差フィードバックを考慮に入れたRLにおける最初の有限時間結果である。
論文 参考訳(メタデータ) (2023-01-03T04:09:38Z) - Score-Guided Intermediate Layer Optimization: Fast Langevin Mixing for
Inverse Problem [97.64313409741614]
ランダム重み付きDNNジェネレータを反転させるため,Langevinアルゴリズムの定常分布を高速に混合し,特徴付ける。
本稿では,事前学習した生成モデルの潜時空間における後部サンプリングを提案する。
論文 参考訳(メタデータ) (2022-06-18T03:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。