論文の概要: Benchmarking Optimizers for Large Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2509.01440v1
- Date: Mon, 01 Sep 2025 12:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.701105
- Title: Benchmarking Optimizers for Large Language Model Pretraining
- Title(参考訳): 大規模言語モデル事前学習のためのベンチマーク最適化
- Authors: Andrei Semenov, Matteo Pagliardini, Martin Jaggi,
- Abstract要約: 本研究は、標準化された事前学習シナリオにおける最近の最適化手法の包括的評価を行う。
各シナリオに最も適した実践者へのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 46.1830130330317
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The recent development of Large Language Models (LLMs) has been accompanied by an effervescence of novel ideas and methods to better optimize the loss of deep learning models. Claims from those methods are myriad: from faster convergence to removing reliance on certain hyperparameters. However, the diverse experimental protocols used to validate these claims make direct comparisons between methods challenging. This study presents a comprehensive evaluation of recent optimization techniques across standardized LLM pretraining scenarios, systematically varying model size, batch size, and training duration. Through careful tuning of each method, we provide guidance to practitioners on which optimizer is best suited for each scenario. For researchers, our work highlights promising directions for future optimization research. Finally, by releasing our code and making all experiments fully reproducible, we hope our efforts can help the development and rigorous benchmarking of future methods.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の開発には,ディープラーニングモデルの損失を最適化するための新しいアイデアや手法の確立が伴っている。
これらの方法からの主張は無数であり、より高速な収束から特定のハイパーパラメータへの依存の除去までである。
しかしながら、これらの主張を検証するために使用される様々な実験的プロトコルは、メソッド間の直接比較を困難にしている。
本研究では,LLM事前学習シナリオ,体系的に異なるモデルサイズ,バッチサイズ,トレーニング期間の最適化手法を網羅的に評価する。
それぞれの手法を慎重にチューニングすることで,各シナリオに最適なオプティマイザを実践者に提供する。
研究者にとって、我々の研究は将来の最適化研究の有望な方向性を強調している。
最後に、コードをリリースし、すべての実験を完全に再現可能にすることで、我々の取り組みが将来のメソッドの開発と厳密なベンチマークに役立つことを願っています。
関連論文リスト
- FoMEMO: Towards Foundation Models for Expensive Multi-objective Optimization [19.69959362934787]
本稿では,FoMEMOと呼ばれる新しいパラダイムを提案する。
実世界で広範囲にわたるドメイン実験にアクセスするのではなく、数億の合成データの多様なセットで基礎モデルを事前訓練することで、未知の問題への適応性が向上することを示した。
論文 参考訳(メタデータ) (2025-09-03T12:00:24Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Align-Pro: A Principled Approach to Prompt Optimization for LLM Alignment [40.71270945505082]
大規模言語モデル(LLM)は、様々な社会的および意思決定プロセスに統合されつつある。
人間のフィードバックからの強化学習(RLHF)のような従来の手法は、微調整モデルパラメータによるアライメントを実現する。
対照的に、迅速な最適化はLLMアライメントのためのRLHFの代替となる。
論文 参考訳(メタデータ) (2025-01-07T03:14:39Z) - Plug-and-Play Training Framework for Preference Optimization [25.53286104242179]
大規模言語モデル(LLM)のための新しいトレーニングフレームワークを提案する。
このフレームワークは複数のサンプリングを用いて出力分布を分析し、異なる重みをサンプルに割り当て、これらの重みを優先最適化プロセスに組み込む。
実験により,本フレームワークは様々な選好最適化手法とシームレスに統合され,数学的推論タスクにおける一貫した改善が達成された。
論文 参考訳(メタデータ) (2024-12-30T15:01:48Z) - AIPO: Improving Training Objective for Iterative Preference Optimization [34.24211649396053]
合成データを用いた反復選好最適化について検討する。
我々は,反復選好最適化,すなわち合意対応反復選好最適化(AIPO)のための学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:03:49Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - A Thorough Examination of Decoding Methods in the Era of LLMs [72.65956436513241]
復号法は、次世代の予測器から実用的なタスク解決器に言語モデルを変換する上で、必須の役割を果たす。
本稿では,大規模言語モデルの文脈における様々な復号法を包括的かつ多面的に分析する。
その結果,復号法の性能は特にタスク依存的であり,アライメント,モデルサイズ,量子化などの要因に影響されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-10T11:14:53Z) - PerfRL: A Small Language Model Framework for Efficient Code Optimization [14.18092813639534]
本稿では,コード最適化の問題に対処する革新的なフレームワークPerfRLを紹介する。
我々のフレームワークは、小型言語モデル(SLM)と強化学習(RL)の機能を活用している。
提案手法は,より短いトレーニング時間とより小さな事前学習モデルを用いて,最先端モデルと比較して,類似あるいはより良い結果が得られる。
論文 参考訳(メタデータ) (2023-12-09T19:50:23Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。