Fugu-MT 論文翻訳(概要): Data movement limits to frontier model training

論文の概要: Data movement limits to frontier model training

arxiv url: http://arxiv.org/abs/2411.01137v1
Date: Sat, 02 Nov 2024 04:48:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.620176
Title: Data movement limits to frontier model training
Title（参考訳）: データ移動はフロンティアモデルトレーニングに制限される
Authors: Ege Erdil, David Schneider-Joseph,
Abstract要約: FLOPの約1031ドルを超えるトレーニングランは、低利用でも実現不可能である。バッチサイズのスケーリングや、より短くて太ったモデル形状は、達成可能であれば、より大きなトレーニング実行を可能にする可能性がある。
参考スコア（独自算出の注目度）: 0.7234862895932991
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a theoretical model of distributed training, and use it to analyze how far dense and sparse training runs can be scaled. Under our baseline assumptions, given a three month training duration, data movement bottlenecks begin to significantly lower hardware utilization for training runs exceeding about $10^{28}$ FLOP, two orders of magnitude above the largest training run to date, \textbf{suggesting the arrival of fundamental barriers to scaling in three years} given recent rates of growth. A training run exceeding about $10^{31}$ FLOP is infeasible even at low utilization. However, more aggressive batch size scaling and/or shorter and fatter model shapes, if achievable, have the potential to permit much larger training runs.
Abstract（参考訳）: 分散トレーニングの理論的モデルを提案し,それを,密集度と疎開度をどの程度スケールできるかを解析するために利用する。ベースラインの仮定では、3ヶ月のトレーニング期間を前提として、データムーブメントのボトルネックがトレーニングのハードウェア利用率を約10〜28ドル(約10～28ドル)以上削減し始めています。 10^{31}=FLOPのトレーニングランは、低利用でも実現不可能である。しかし、よりアグレッシブなバッチサイズスケーリングや、より短くて太ったモデル形状は、達成可能であれば、より大きなトレーニング実行を可能にする可能性がある。

関連論文リスト

Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文参考訳（メタデータ） (2025-07-24T01:09:25Z)
Overtrained Language Models Are Harder to Fine-Tune [64.44743256512237]
大規模言語モデルは、成長を続けるトークン予算に基づいて事前訓練されている。事前トレーニングの拡張により、モデルを微調整しにくくなり、最終的なパフォーマンスが低下することを示した。
論文参考訳（メタデータ） (2025-03-24T23:11:56Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文参考訳（メタデータ） (2024-06-21T02:28:37Z)
Scaling Laws and Compute-Optimal Training Beyond Fixed Training Durations [62.132347451049455]
スケールは強力な機械学習モデルを得る上で重要な要素となっている。本研究では,コサインのスケジュールに依存するため,スケールとトレーニングの研究は必然的に複雑である,と論じる。その結果,重量平均化はトレーニングの軌道に沿って,異なるスケールでのトレーニングコストを伴わずに向上することがわかった。
論文参考訳（メタデータ） (2024-05-28T17:33:54Z)
Preparing Lessons for Progressive Training on Language Models [75.88952808979087]
人工知能におけるトランスフォーマーの急速な進歩は、資源消費の増加と温室効果ガス排出のコストを犠牲にしている。我々は,低層学習におけるtextbflayer functitextbfonality による extextbfpanding textbfoperation の授業をプレptextbfars で行うApolloを提案する。実験では、アポロは最先端の加速比を達成し、事前訓練されたモデルを用いた手法にさえ対抗できることを示した。
論文参考訳（メタデータ） (2024-01-17T13:04:14Z)
An Emulator for Fine-Tuning Large Language Models using Small Language Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。 EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文参考訳（メタデータ） (2023-10-19T17:57:16Z)
Early Weight Averaging meets High Learning Rates for LLM Pre-training [20.671831210738937]
高い学習率で訓練されたモデルは、チェックポイント平均化により、より高い利得を観測できることを示す。トレーニングレシピは、従来のトレーニングと一般的なチェックポイント平均基準よりも優れています。
論文参考訳（メタデータ） (2023-06-05T20:51:44Z)
SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文参考訳（メタデータ） (2023-03-18T17:56:01Z)
Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size [58.762959061522736]
学習速度を適切に調整したミニバッチサイズをスケールすることで、トレーニングプロセスを桁違いに高速化できることを示す。そこで本研究では,(1)Qアンサンブルの縮小,(2)分配行動の厳格化,(3)収束時間の改善など,ミニバッチサイズを拡大し,学習率を経時的に調整できることを示す。
論文参考訳（メタデータ） (2022-11-20T21:48:25Z)
Efficient NLP Model Finetuning via Multistage Data Filtering [11.058786955754004]
ターゲットモデルのトレーニングと合わせて,トレーニングサンプルをストリーミング形式でフィルタすることにしました。 1)後方トレーニングパスをスキップするためのトレーニング損失閾値を自動的に決定し,(2)前方トレーニングパスをスキップするためのメタ予測器を実行する。本手法では,必要なトレーニング例を最大5.3$times$に,トレーニング時間を最大6.8$times$に短縮する。
論文参考訳（メタデータ） (2022-07-28T21:43:31Z)
Staged Training for Transformer Language Models [47.99321376123886]
私たちは、小さなモデルから始まり、トレーニングに使用する計算量を漸進的に増加させる、段階的なトレーニング設定を考えます。トレーニングプロセスは、各ステージを前のステージの出力で初期化することにより、計算を効果的に再利用する。成長オペレーターを実証的に検証し、自己回帰言語モデルのトレーニングを行い、最大22%の計算貯蓄量を示した。
論文参考訳（メタデータ） (2022-03-11T19:05:42Z)
$\ell_\infty$-Robustness and Beyond: Unleashing Efficient Adversarial Training [11.241749205970253]
トレーニングデータの小さなサブセットを選択することで、堅牢なトレーニングの時間的複雑さを軽減するための、より原則的なアプローチが実現されることを示す。本手法は,クリーンかつロバストな精度をわずかに低下させながら,敵のトレーニングを2～3倍高速化する。
論文参考訳（メタデータ） (2021-12-01T09:55:01Z)
Curriculum Learning: A Regularization Method for Efficient and Stable Billion-Scale GPT Model Pre-Training [18.640076155697415]
本稿では,自己回帰モデルによる事前学習の収束速度の向上を支援するカリキュラム学習に基づく手法を提案する。評価の結果,カリキュラム学習により,バッチサイズが8倍,学習速度が4倍のGPT-2モデルを学習できることがわかった。
論文参考訳（メタデータ） (2021-08-13T06:32:53Z)
EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。 BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。 EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文参考訳（メタデータ） (2020-12-31T20:38:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。