論文の概要: Relative Scaling Laws for LLMs
- arxiv url: http://arxiv.org/abs/2510.24626v1
- Date: Tue, 28 Oct 2025 16:55:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.288444
- Title: Relative Scaling Laws for LLMs
- Title(参考訳): LLMの相対スケーリング法則
- Authors: William Held, David Hall, Percy Liang, Diyi Yang,
- Abstract要約: スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
- 参考スコア(独自算出の注目度): 91.73497548097775
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scaling laws describe how language models improve with additional data, parameters, and compute. While widely used, they are typically measured on aggregate test sets. Aggregate evaluations yield clean trends but average over heterogeneous subpopulations, obscuring performance disparities. We introduce relative scaling laws, which track how performance gaps between test distributions evolve with scale rather than focusing solely on absolute error. Using 255 decoder-only Transformers trained under matched-compute (IsoFLOP) budgets from $10^{18}$--$10^{20}$ FLOPs on standard pretraining datasets, we find diverse trajectories: academic domains on MMLU converge toward parity; regional English dialects shift depending on population size; and clusters of AI risk behaviours split, with capability- and influence-related risks increasing during pretraining while adversarial risks do not. These results show that although scaling improves overall performance, it is not a universal equalizer. To support further study, we release all model checkpoints from this work to enable practitioners to measure relative alongside traditional scaling laws, in order to better prioritize robustness challenges in light of the bitter lesson.
- Abstract(参考訳): スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
広く使われているが、一般的には集合テストセットで測定される。
アグリゲート評価はクリーンな傾向をもたらすが、不均一なサブポピュレーションよりも平均的であり、性能格差を無視する。
絶対誤差のみに焦点をあてるのではなく、テストディストリビューション間のパフォーマンスギャップがスケールでどのように進化するかをトラックする相対スケーリング法則を導入する。
標準事前学習データセットの10^{18}$-$10^{20}$ FLOPからトレーニングされた255デコーダのみのトランスフォーマーを用いて、MMLUの学術ドメインはパリティに収束し、地域英語の方言は人口規模によって変化し、AIリスク行動のクラスタは、プレトレーニング中に能力と影響に関連するリスクが増加し、敵のリスクは増加しない。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
さらなる研究を支援するため、我々は、この研究から得られたすべてのモデルチェックポイントを公開し、実践者が従来のスケーリング法に沿って相対性を測定することができるようにし、苦しい教訓に照らして頑健さの課題をより適切に優先順位付けできるようにします。
関連論文リスト
- Bayesian scaling laws for in-context learning [85.34114399339741]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者に近似していることを示し、ICCの新しいベイズスケーリング法を生み出した。
我々のスケーリング法則は既存のスケーリング法則と精度で一致し、タスクの優先順位、学習効率、サンプルごとの確率の解釈可能な用語も提供します。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Scaling Laws for Downstream Task Performance in Machine Translation [27.278023091494507]
BLEU や COMET などの指標を用いて,事前学習データの選択が下流のパフォーマンス(翻訳品質)に与える影響について検討した。
十分なアライメントで、下流のクロスエントロピーと翻訳品質スコアは、より事前訓練されたデータで単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。