論文の概要: Scaling Performance of Large Language Model Pretraining
- arxiv url: http://arxiv.org/abs/2509.05258v1
- Date: Fri, 05 Sep 2025 17:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.66369
- Title: Scaling Performance of Large Language Model Pretraining
- Title(参考訳): 大規模言語モデル事前学習のスケーリング性能
- Authors: Alexander Interrante-Grant, Carla Varela-Rosa, Suhaas Narayan, Chris Connelly, Albert Reuther,
- Abstract要約: 大規模言語モデル(LLM)は、幅広い自然言語処理アプリケーションで最高の性能を示す。
これらのモデルのトレーニングは非常に計算コストのかかる作業である。
Frontier Artificial Intelligence(AI)の研究会社は、ますます大規模なデータセット上で、徐々に大きなモデルを訓練するために、スーパーコンピューティングのインフラに数十億ドルを投資している。
- 参考スコア(独自算出の注目度): 37.17006762664604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show best-in-class performance across a wide range of natural language processing applications. Training these models is an extremely computationally expensive task; frontier Artificial Intelligence (AI) research companies are investing billions of dollars into supercomputing infrastructure to train progressively larger models on increasingly massive datasets. Unfortunately, information about the scaling performance and training considerations of these large training pipelines is scarce in public literature. Working with large-scale datasets and models can be complex and practical recommendations are scarce in the public literature for tuning training performance when scaling up large language models. In this paper, we aim to demystify the large language model pretraining pipeline somewhat - in particular with respect to distributed training, managing large datasets across hundreds of nodes, and scaling up data parallelism with an emphasis on fully leveraging available GPU compute capacity.
- Abstract(参考訳): 大規模言語モデル(LLM)は、幅広い自然言語処理アプリケーションで最高の性能を示す。
フロンティア人工知能(AI)の研究会社は、ますます巨大なデータセット上で徐々に大きなモデルを訓練するスーパーコンピューティングのインフラに数十億ドルを投資している。
残念ながら、これらの大規模なトレーニングパイプラインのスケーリングパフォーマンスとトレーニングに関する情報はあまり公開されていない。
大規模なデータセットやモデルを扱うのは複雑であり、大規模な言語モデルをスケールアップする際のトレーニングパフォーマンスをチューニングするための実践的な推奨事項は、公共の文献では不足している。
本稿では,分散トレーニング,数百のノードにわたる大規模データセットの管理,データ並列化のスケールアップなどにおいて,利用可能なGPU計算能力の完全活用を重視した大規模言語モデル事前学習パイプラインのデミスティフィケーションを目指す。
関連論文リスト
- Evolution without Large Models: Training Language Model with Task Principles [52.44569608690695]
言語モデルの一般的なトレーニングアプローチは、人間が提供したデータセットを拡張するために、大規模な言語モデルを使用することである。
この方法は、広範囲な人的データアノテーションの必要性を排除し、トレーニングコストを大幅に削減する。
しかし、データ拡張時の二酸化炭素排出量の増加や、データ漏洩のリスクなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2025-07-08T13:52:45Z) - Training Bilingual LMs with Data Constraints in the Targeted Language [17.623676545426477]
本研究では,事前学習データ不足を伴う対象言語における事前学習モデルの性能向上について検討する。
本研究では,データ豊富な補助言語におけるトレーニングとデータ間のパフォーマンスギャップを,対象言語のトレーニングと比較して定量化する。
論文 参考訳(メタデータ) (2024-11-20T02:27:40Z) - Training Data for Large Language Model [2.1178416840822027]
ChatGPTは、事前学習コーパスのパラメータとスケールの点で、以前のモデルを上回った。
ChatGPTは、大量の高品質な人間注釈付きデータを微調整することで、革命的なパフォーマンス向上を実現した。
本稿では,大規模言語モデルの事前学習と微調整の現状を概説する。
論文 参考訳(メタデータ) (2024-11-12T11:09:58Z) - Scaling Retrieval-Based Language Models with a Trillion-Token Datastore [85.4310806466002]
検索ベースLMが使用するデータストアのサイズを増大させることで,言語モデリングや下流タスクを一元的に改善できることがわかった。
データストア、モデル、事前学習データサイズで計算最適スケーリング曲線をプロットすることにより、より大きなデータストアを使用することで、同じトレーニング計算予算のモデル性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-09T08:27:27Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - Scaling Expert Language Models with Unsupervised Domain Discovery [107.08940500543447]
本稿では,任意のテキストコーパス上で,大規模でスパースな言語モデルを非同期に訓練する,シンプルだが効果的な手法を提案する。
提案手法では,コーパスを関連文書の集合に集約し,各クラスタ上で個別の専門家言語モデルを訓練し,それらをスパースアンサンブルに組み合わせて推論を行う。
論文 参考訳(メタデータ) (2023-03-24T17:38:58Z) - Efficient Speech Translation with Pre-trained Models [13.107314023500349]
本研究では,事前学習モデルに基づいて,ケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。
エンド・ツー・エンドのモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用はエンド・ツー・エンドのトレーニングデータの追加の必要性に制限がある。
論文 参考訳(メタデータ) (2022-11-09T15:07:06Z) - Improving Classifier Training Efficiency for Automatic Cyberbullying
Detection with Feature Density [58.64907136562178]
言語支援の異なる特徴前処理手法を用いて特徴密度(FD)の有効性を検討した。
データセットの複雑さを推定することで、必要な実験の数を削減できると仮定する。
データセットの言語的複雑さの違いにより、言語的に支援された単語前処理の有効性を議論することが可能になる。
論文 参考訳(メタデータ) (2021-11-02T15:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。