論文の概要: Scaling Laws Are Unreliable for Downstream Tasks: A Reality Check
- arxiv url: http://arxiv.org/abs/2507.00885v1
- Date: Tue, 01 Jul 2025 15:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.713625
- Title: Scaling Laws Are Unreliable for Downstream Tasks: A Reality Check
- Title(参考訳): ダウンストリームタスクのスケーリング法則は信頼できない - 現実チェック
- Authors: Nicholas Lourie, Michael Y. Hu, Kyunghyun Cho,
- Abstract要約: 下流のスケーリング法は、小規模での事前学習損失から大規模でのタスクパフォーマンスを予測することを目的としている。
我々は、下流のスケーリング法則に関する既存のデータのメタ分析を行い、リニアスケーリング法則に準ずることが少数のケースでのみ発生することを発見した。
明らかに実験的な設定の変更は、スケーリングの傾向を完全に変える可能性がある。
- 参考スコア(独自算出の注目度): 41.91125949945726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Downstream scaling laws aim to predict task performance at larger scales from pretraining losses at smaller scales. Whether this prediction should be possible is unclear: some works demonstrate that task performance follows clear linear scaling trends under transformation, whereas others point out fundamental challenges to downstream scaling laws, such as emergence and inverse scaling. In this work, we conduct a meta-analysis of existing data on downstream scaling laws, finding that close fit to linear scaling laws only occurs in a minority of cases: 39% of the time. Furthermore, seemingly benign changes to the experimental setting can completely change the scaling trend. Our analysis underscores the need to understand the conditions under which scaling laws succeed. To fully model the relationship between pretraining loss and downstream task performance, we must embrace the cases in which scaling behavior deviates from linear trends.
- Abstract(参考訳): 下流のスケーリング法は、小規模での事前学習損失から大規模でのタスクパフォーマンスを予測することを目的としている。
この予測が可能であるかどうかは不明だが、いくつかの研究は、タスクパフォーマンスが変換の下での明確な線形スケーリングトレンドに従うことを実証している一方、ダウンストリームスケーリング法則(例えば、出現や逆スケーリング)に対する根本的な課題を指摘している。
本研究では、下流のスケーリング法則に関する既存のデータのメタ分析を行い、線形スケーリング法則に準ずることが少数のケースでのみ発生することを発見した。
さらに、実験的な設定の変更は、スケーリングの傾向を完全に変える可能性がある。
我々の分析は、スケーリング法則が成功する条件を理解する必要性を浮き彫りにしている。
事前学習の損失とダウンストリームのタスクパフォーマンスの関係をモデル化するためには,スケーリング行動が線形トレンドから逸脱するケースを受け入れる必要がある。
関連論文リスト
- Scaling Law Phenomena Across Regression Paradigms: Multiple and Kernel Approaches [28.569601803576845]
トランスフォーマーアーキテクチャを持つモデルの場合、テスト損失はモデルサイズ、データセットサイズ、トレーニングで使用される計算量と強力な関係を示す。
我々の分析はスケーリング法則に関する深い洞察を与え、大きな言語モデルに対する理解を深める可能性がある。
論文 参考訳(メタデータ) (2025-03-03T08:57:49Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Scaling Laws for Downstream Task Performance in Machine Translation [27.278023091494507]
BLEU や COMET などの指標を用いて,事前学習データの選択が下流のパフォーマンス(翻訳品質)に与える影響について検討した。
十分なアライメントで、下流のクロスエントロピーと翻訳品質スコアは、より事前訓練されたデータで単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - Selecting Large Language Model to Fine-tune via Rectified Scaling Law [74.84096546112215]
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-04T01:55:00Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。