Fugu-MT 論文翻訳(概要): Cautious Optimizers: Improving Training with One Line of Code

論文の概要: Cautious Optimizers: Improving Training with One Line of Code

arxiv url: http://arxiv.org/abs/2411.16085v3
Date: Fri, 31 Jan 2025 13:56:58 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-03 14:50:17.539948
Title: Cautious Optimizers: Improving Training with One Line of Code
Title（参考訳）: 注意すべき最適化 - 1行のコードによるトレーニングの改善
Authors: Kaizhao Liang, Lizhang Chen, Bo Liu, Qiang Liu,
Abstract要約: 我々はAdamWを慎重な、例えばC-AdamWとC-Lionに改名した。我々の理論的結果は、この修正がアダムのハミルトニアン函数を保ち、リアプノフ解析の下で収束保証を破らないことを示している。中でも最も単純な実験は、LlamaとMAEで最大1.47ドル(約1万7000円)の事前トレーニングを行うだけでなく、ポストトレーニングタスクの結果としても優れていることを示す実験である。
参考スコア（独自算出の注目度）: 8.393403749426097
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AdamW has been the default optimizer for transformer pretraining. For many years, our community searched for faster and more stable optimizers with only constrained positive outcomes. In this work, we propose a single-line modification in Pytorch to any momentum-based optimizer, which we rename cautious optimizer, e.g. C-AdamW and C-Lion. Our theoretical result shows that this modification preserves Adam's Hamiltonian function and it does not break the convergence guarantee under the Lyapunov analysis. In addition, a whole new family of optimizers is revealed by our theoretical insight. Among them, we pick the simplest one for empirical experiments, showing not only speed-up on Llama and MAE pretraining up to $1.47$ times, but also better results in LLM post-training tasks. Code is available at https://github.com/kyleliang919/C-Optim.
Abstract（参考訳）: AdamWは、トランスフォーマー事前トレーニングのデフォルトオプティマイザである。長年、私たちのコミュニティは、より速く、より安定した最適化を追求してきました。本研究では、モーメントに基づく任意の最適化器に対して、Pytorchの単行修正を提案し、注意深いオプティマイザ、eg C-AdamW と C-Lion を改名する。我々の理論的結果は、この修正がアダムのハミルトニアン函数を保ち、リアプノフ解析の下で収束保証を破らないことを示している。さらに、我々の理論的な洞察によって、全く新しいオプティマイザ群が明らかにされる。 Llama と MAE の事前学習速度を最大1.47 ドルまで向上させるだけでなく,LLM のポストトレーニング作業でも良好な結果が得られた。コードはhttps://github.com/kyleliang919/C-Optimで入手できる。

関連論文リスト

MicroAdam: Accurate Adaptive Optimization with Low Space Overhead and Provable Convergence [35.17459630834073]
我々は,理論収束保証を維持しつつ,メモリオーバーヘッドを特に最小化するAdamの新たな変種を提案する。分散最適化から古典的エラーフィードバック機構の新たなインスタンスを用いて圧縮誤差を制御した。提案手法は, AMSGradと競合することを保証するとともに, 実用性も良好であることを示す。
論文参考訳（メタデータ） (2024-05-24T14:25:23Z)
Self-Adjusting Evolutionary Algorithms Are Slow on Multimodal Landscapes [0.0]
正の結果が他の局所最適値に拡張されないことを示す。歪んだOneMaxベンチマークでは、自己調整の$(1, lambda)$-EAは、アルゴリズムがローカルオプティマからエスケープされるのを防ぐため、エリート的アルゴリズムと同じように遅くなる。
論文参考訳（メタデータ） (2024-04-18T10:01:08Z)
Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed Zeroth-Order Optimizer [43.86938914517675]
古典的な1次メモリを備えた細調整の大型言語モデル(LLM)は、バックプロパゲーションプロセスによって禁止的なGPUを必要とする。最近の研究は微調整のためのゼロオーダーに変化しており、2つのフォワードパスを使用することでかなりのメモリを節約している。本研究では, 対角的ヘッセン情報に基づくゼロ階軌道であるHiZOOを提案する。
論文参考訳（メタデータ） (2024-02-23T08:11:55Z)
MADA: Meta-Adaptive Optimizers through hyper-gradient Descent [73.1383658672682]
メタ適応(MADA)は、複数の既知の収束を一般化し、トレーニング中に最も適した収束を動的に学習できる統合フレームワークである。私たちは、MADAを視覚や言語タスクに関する他の人気と経験的に比較し、MADAがAdamや他の人気を一貫して上回っていることに気付きました。 AVGradは最大演算子を平均演算子に置き換えたもので、高次最適化に適している。
論文参考訳（メタデータ） (2024-01-17T00:16:46Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文参考訳（メタデータ） (2022-11-17T18:39:07Z)
Learning to Optimize Quasi-Newton Methods [22.504971951262004]
本稿では、最適化時に最適な事前条件をオンラインで学習するLODOと呼ばれる新しい機械学習を提案する。他のL2Oメソッドとは異なり、LODOはトレーニングタスクの配布にメタトレーニングを一切必要としない。この勾配は, 雑音場における逆 Hessian を近似し, 幅広い逆 Hessian を表現可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T03:47:14Z)
DOGE-Train: Discrete Optimization on GPU with End-to-end Training [28.795080637690095]
0-1整数線形プログラムの緩和を解くために,高速でスケーラブルなデータ駆動型手法を提案する。グラフニューラルネットワーク(GNN)とラグランジュ分解に基づくアルゴリズムであるFastDOGを用いる。
論文参考訳（メタデータ） (2022-05-23T21:09:41Z)
Training Learned Optimizers with Randomly Initialized Learned Optimizers [49.67678615506608]
ランダムに学習した人の集団は、オンラインの方法でゼロから学習することができる。人口ベーストレーニングの形式は、この自己学習の組織化に使用される。このタイプのフィードバックループは、機械学習の将来において重要かつ強力なものになると思います。
論文参考訳（メタデータ） (2021-01-14T19:07:17Z)
Divide and Learn: A Divide and Conquer Approach for Predict+Optimize [50.03608569227359]
予測+最適化問題は、予測係数を使用する最適化プロブレムと、確率係数の機械学習を組み合わせる。本稿では, 予測係数を1次線形関数として, 最適化問題の損失を直接表現する方法を示す。本稿では,この制約を伴わずに最適化問題に対処し,最適化損失を用いてその係数を予測する新しい分割アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-04T00:26:56Z)
Reverse engineering learned optimizers reveals known and novel mechanisms [50.50540910474342]
学習は最適化問題を解決するために自らを訓練できるアルゴリズムである。実験の結果は,学習の動作方法に関するそれまでの曖昧な理解を解明し,今後の学習を解釈するためのツールを確立するのに役立つ。
論文参考訳（メタデータ） (2020-11-04T07:12:43Z)
A new regret analysis for Adam-type algorithms [78.825194932103]
理論的には、オンライン凸最適化に対する後悔の保証は、急速に崩壊する$beta_1to0$スケジュールを必要とする。最適なデータ依存リセット境界を一定の$beta_1$で導出できる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-21T19:19:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。