論文の概要: LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws
- arxiv url: http://arxiv.org/abs/2502.12120v1
- Date: Mon, 17 Feb 2025 18:45:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:16:52.064531
- Title: LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws
- Title(参考訳): LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws
- Authors: Prasanna Mayilvahanan, Thaddäus Wiedemer, Sayak Mallick, Matthias Bethge, Wieland Brendel,
- Abstract要約: ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
- 参考スコア(独自算出の注目度): 21.053622641336744
- License:
- Abstract: Scaling laws guide the development of large language models (LLMs) by offering estimates for the optimal balance of model size, tokens, and compute. More recently, loss-to-loss scaling laws that relate losses across pretraining datasets and downstream tasks have emerged as a powerful tool for understanding and improving LLM performance. In this work, we investigate which factors most strongly influence loss-to-loss scaling. Our experiments reveal that the pretraining data and tokenizer determine the scaling trend. In contrast, model size, optimization hyperparameters, and even significant architectural differences, such as between transformer-based models like Llama and state-space models like Mamba, have limited impact. Consequently, practitioners should carefully curate suitable pretraining datasets for optimal downstream performance, while architectures and other settings can be freely optimized for training efficiency.
- Abstract(参考訳): スケーリング法則は、モデルサイズ、トークン、計算の最適なバランスの見積もりを提供することで、大きな言語モデル(LLM)の開発を導く。
最近では、LLMのパフォーマンスを理解し改善するための強力なツールとして、事前トレーニングデータセットと下流タスク間の損失に関連するロス・ツー・ロスのスケーリング法が登場している。
本研究では,損失-損失-損失スケーリングに最も強く影響を与える要因について検討する。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
対照的に、モデルサイズ、最適化ハイパーパラメータ、さらにはLlamaのようなトランスフォーマーベースのモデルとMambaのようなステートスペースモデルの間のアーキテクチャ上の大きな違いは、影響を限定している。
したがって、実践者は、最適な下流パフォーマンスのために適切な事前トレーニングデータセットを慎重にキュレートし、一方、アーキテクチャやその他の設定は、トレーニング効率のために自由に最適化できる。
関連論文リスト
- Scaling Laws for Differentially Private Language Models [53.14592585413073]
スケーリング法則は、大規模言語モデル(LLM)トレーニングの重要なコンポーネントとして現れ、スケールによるパフォーマンス向上を予測することができる。
LLMは(時にはセンシティブな)ユーザデータから得られるような、大規模で高品質なトレーニングデータセットに依存しています。
この機密性の高いユーザーデータのトレーニングモデルは、差分プライバシー(DP)のような慎重なプライバシー保護を必要とする
論文 参考訳(メタデータ) (2025-01-31T06:32:46Z) - Sloth: scaling laws for LLM skills to predict multi-benchmark performance across families [43.36524246307057]
大規模言語モデル(LLM)のスケーリング法則は、サイズやトレーニングデータといったパラメータに基づいてパフォーマンスを予測する。
我々は、公開されているベンチマークデータを活用する新しいスケーリング法則であるSkills Scaling Laws (SSLaws)を提案する。
パラメータ同定と経験的評価について,12のベンチマークで理論的に検討した。
論文 参考訳(メタデータ) (2024-12-09T14:51:26Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - Scaling Laws for Downstream Task Performance of Large Language Models [28.904224842085064]
プレトレーニングデータの選択が、下流のクロスエントロピーとBLEUスコアの2つの指標から判断された下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。
十分なアライメントで、下流のクロスエントロピーとBLEUスコアは、より事前トレーニングされたデータによって単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。