論文の概要: Pre-Training LLMs on a budget: A comparison of three optimizers
- arxiv url: http://arxiv.org/abs/2507.08472v1
- Date: Fri, 11 Jul 2025 10:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.322997
- Title: Pre-Training LLMs on a budget: A comparison of three optimizers
- Title(参考訳): 事前学習型LCMの予算化:3つの最適化器の比較
- Authors: Joel Schlotthauer, Christian Kroos, Chris Hinze, Viktor Hangya, Luzian Hahn, Fabian Küch,
- Abstract要約: 我々は、デファクト標準のAdamW、より単純なLion、そして2階のSophiaの3つの主要な変種を比較した。
より良い一般化のために、私たちは2つの異なるベースアーキテクチャでトレーニングし、単一と複数エポックのアプローチを使用します。
- 参考スコア(独自算出の注目度): 2.8090964770805207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizers play a decisive role in reducing pre-training times for LLMs and achieving better-performing models. In this study, we compare three major variants: the de-facto standard AdamW, the simpler Lion, developed through an evolutionary search, and the second-order optimizer Sophia. For better generalization, we train with two different base architectures and use a single- and a multiple-epoch approach while keeping the number of tokens constant. Using the Maximal Update Parametrization and smaller proxy models, we tune relevant hyperparameters separately for each combination of base architecture and optimizer. We found that while the results from all three optimizers were in approximately the same range, Sophia exhibited the lowest training and validation loss, Lion was fastest in terms of training GPU hours but AdamW led to the best downstream evaluation results.
- Abstract(参考訳): 最適化は、LCMの事前学習時間を短縮し、より良い性能のモデルを達成する上で決定的な役割を果たす。
本研究では,デファクト標準のAdamWと,進化探索によって発達した単純なライオンと,二階最適化器のSophiaの3つの変種を比較した。
より一般化するために、2つの異なるベースアーキテクチャをトレーニングし、トークンの数を一定に保ちながら、シングルとマルチエポックのアプローチを使用します。
最大更新パラメータ化とより小さなプロキシモデルを用いて、ベースアーキテクチャとオプティマイザの組み合わせごとに関連するハイパーパラメータを個別に調整する。
3つのオプティマイザの結果はほぼ同じ範囲で、Sophiaはトレーニングとバリデーションの損失が最も低く、LionはGPUのトレーニング時間で最速であったが、AdamWはダウンストリーム評価で最高の結果を得た。
関連論文リスト
- The Impact of Fine-tuning Large Language Models on Automated Program Repair [5.868532677577195]
自動プログラム修正(APR)は、様々なツールとテクニックを使用して、開発者が関数型およびエラーなしのコードを高速に達成するのを助ける。
大規模言語モデル(LLM)は、そのパフォーマンスと柔軟性から、APRツールチェーンのコンポーネントとして人気を集めている。
微調整技術は、APRのような特定のタスクに事前訓練されたLLMを適応させ、スクラッチからのトレーニングよりもはるかに少ない計算コストで性能を向上させるために開発されている。
論文 参考訳(メタデータ) (2025-07-26T10:42:08Z) - It Takes a Good Model to Train a Good Model: Generalized Gaussian Priors for Optimized LLMs [15.263422862969803]
大規模言語モデルのトレーニング時間圧縮アルゴリズムであるBackSlashを導入する。
GGモデルに基づくLLM最適化のための統一エンドツーエンドフレームワークを提案する。
私たちの貢献は3倍です。
DeepShapeは、トレーニング後の正規化手法で、体重分布をGGプロファイルにマッチさせる。
RF8は、GG-distributed-priord BackSlashトレーニング用に設計された、コンパクトでハードウェア効率の良い8ビット浮動小数点演算フォーマットである。
論文 参考訳(メタデータ) (2025-05-31T09:49:17Z) - C3PO: Critical-Layer, Core-Expert, Collaborative Pathway Optimization for Test-Time Expert Re-Mixing [21.119495676190127]
Mixture-of-Experts (MoE) Large Language Models (LLMs) は、高度に最適化されたエキスパートパスに苦しむ。
プレトレーニングから学んだナイーブな専門家選択は、改善のための驚くべき10~20%の精度ギャップを残します。
テストサンプル毎に異なるレイヤのエキスパートを共同で再重み付けあるいは「再混合」するための新しいテスト時間最適化手法を開発する。
論文 参考訳(メタデータ) (2025-04-10T17:59:56Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - MARS: Unleashing the Power of Variance Reduction for Training Large Models [56.47014540413659]
深層ニューラルネットワークのための統合トレーニングフレームワークを提案する。
我々は,事前条件付き勾配最適化を利用するMARSの3つの例を紹介する。
その結果,MARSの実装はAdamより一貫して優れていた。
論文 参考訳(メタデータ) (2024-11-15T18:57:39Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。
本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文 参考訳(メタデータ) (2024-05-30T06:24:14Z) - Incorporating Test-Time Optimization into Training with Dual Networks for Human Mesh Recovery [35.138312681232264]
本稿では,トレーニングタイムとテストタイムの目標を統一するデュアルネットワークアーキテクチャを提案する。
メタラーニングと双対ネットワークを併用した手法は、最先端の回帰ベースおよび最適化ベースのHMRアプローチより優れている。
論文 参考訳(メタデータ) (2024-01-25T12:04:53Z) - Symbolic Discovery of Optimization Algorithms [132.62397077095787]
我々は,効率的な探索手法を用いて,無限小のプログラム空間を探索する。
提案手法は, 単純かつ効率的な最適化アルゴリズムである $textbfLion$ を探索する。
LionはGoogle検索広告CTRモデルのようなプロダクションシステムにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-02-13T20:27:30Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - VeLO: Training Versatile Learned Optimizers by Scaling Up [67.90237498659397]
私たちは、ディープラーニングの成功の背後にある同じスケーリングアプローチを活用して、汎用性を学びます。
私たちは、パラメータの更新を取り込み出力する小さなニューラルネットワークであるディープラーニングのためのインジェクションをトレーニングします。
学習したメタトレーニングコード、関連するトレインテストデータ、およびvelo-code.ioのベースラインを備えた広範なベンチマークスイートをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2022-11-17T18:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。