論文の概要: Distributional Scaling Laws for Emergent Capabilities
- arxiv url: http://arxiv.org/abs/2502.17356v1
- Date: Mon, 24 Feb 2025 17:34:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:02.870577
- Title: Distributional Scaling Laws for Emergent Capabilities
- Title(参考訳): 創発的能力の分散スケーリング法則
- Authors: Rosie Zhao, Tian Qin, David Alvarez-Melis, Sham Kakade, Naomi Saphra,
- Abstract要約: 測定値の急激なブレークスルーは,種子間の分布の連続的な変化によって生じることを示す。
逆スケーリングのケーススタディとして、成功したランの確率が低下しても、成功したランの平均性能が単調に増加し続けることを示す。
- 参考スコア(独自算出の注目度): 13.405166793637978
- License:
- Abstract: In this paper, we explore the nature of sudden breakthroughs in language model performance at scale, which stands in contrast to smooth improvements governed by scaling laws. While advocates of "emergence" view abrupt performance gains as capabilities unlocking at specific scales, others have suggested that they are produced by thresholding effects and alleviated by continuous metrics. We propose that breakthroughs are instead driven by continuous changes in the probability distribution of training outcomes, particularly when performance is bimodally distributed across random seeds. In synthetic length generalization tasks, we show that different random seeds can produce either highly linear or emergent scaling trends. We reveal that sharp breakthroughs in metrics are produced by underlying continuous changes in their distribution across seeds. Furthermore, we provide a case study of inverse scaling and show that even as the probability of a successful run declines, the average performance of a successful run continues to increase monotonically. We validate our distributional scaling framework on realistic settings by measuring MMLU performance in LLM populations. These insights emphasize the role of random variation in the effect of scale on LLM capabilities.
- Abstract(参考訳): 本稿では,スケール法則によるスムーズな改善とは対照的に,大規模言語モデルの性能の急激なブレークスルーの性質について考察する。
Emergence"の支持者は、特定のスケールでの能力のアンロックとして、パフォーマンスが突然向上すると考えているが、他の人々は、それらが閾値付け効果によって生成され、継続的なメトリクスによって緩和されることを示唆している。
実験結果の確率分布の連続的な変化,特にランダムな種子を二乗的に分散した場合に,ブレークスルーが引き起こされることが示唆された。
合成長一般化タスクにおいて、異なるランダムシードが高線形または創発的なスケーリング傾向を生じさせることを示す。
測定値の急激なブレークスルーは,種子間の分布の連続的な変化によって生じることが明らかとなった。
さらに、逆スケーリングのケーススタディを提案し、成功したランの確率が低下しても、成功したランの平均性能が単調に増加し続けることを示す。
LLM集団におけるMMLU性能の測定により,現実的な環境下での分散スケーリングの枠組みを検証する。
これらの知見は、LLM能力に対するスケールの影響におけるランダム変動の役割を強調している。
関連論文リスト
- Has LLM Reached the Scaling Ceiling Yet? Unified Insights into LLM Regularities and Constraints [0.0]
大きな言語モデル(LLM)は目覚ましい能力を示していますが、そのスケーラビリティには重要な疑問があります。
本稿では,LLMのスケーリング力学を説明するために,数学的および統計的知見を統合する統一理論フレームワークを開発する。
今後の進歩には、ブルートフォーススケーリングから、アーキテクチャ、データ品質、トレーニングパラダイムの革新に移行する必要があります。
論文 参考訳(メタデータ) (2024-12-21T02:19:07Z) - Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - Distributional Refinement Network: Distributional Forecasting via Deep Learning [0.8142555609235358]
アクチュエータモデリングにおける重要なタスクは、損失の分布特性をモデル化することである。
本稿では,本質的に解釈可能なベースラインモデルとフレキシブルニューラルネットワークを組み合わせた分散リファインメントネットワーク(DRN)を提案する。
DRNは、全ての量子化の様々な効果を捉え、適切な解釈性を維持しながら予測性能を向上させる。
論文 参考訳(メタデータ) (2024-06-03T05:14:32Z) - A Heavy-Tailed Algebra for Probabilistic Programming [53.32246823168763]
本稿では,確率変数の尾を解析するための体系的アプローチを提案する。
本稿では,確率型プログラミング言語コンパイラの静的解析(サンプル作成前)において,この手法をどのように利用できるかを示す。
実験結果から,重み付き代数を利用する推論アルゴリズムは,多数の密度モデリングおよび変分推論タスクにおいて優れた性能が得られることを確認した。
論文 参考訳(メタデータ) (2023-06-15T16:37:36Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Certifying Model Accuracy under Distribution Shifts [151.67113334248464]
本稿では,データ分布の有界ワッサースタインシフトの下でのモデルの精度について,証明可能なロバスト性保証を提案する。
変換空間におけるモデルの入力をランダム化する単純な手順は、変換の下での分布シフトに対して確実に堅牢であることを示す。
論文 参考訳(メタデータ) (2022-01-28T22:03:50Z) - Achieving Efficiency in Black Box Simulation of Distribution Tails with
Self-structuring Importance Samplers [1.6114012813668934]
本稿では,線形プログラムや整数線形プログラム,ピースワイド線形・二次目的,ディープニューラルネットワークで指定された特徴マップなど,多種多様なツールでモデル化されたパフォーマンス指標の分布を推定する,新しいImportance Smpling(IS)方式を提案する。
論文 参考訳(メタデータ) (2021-02-14T03:37:22Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。