Fugu-MT 論文翻訳(概要): Unlock Predictable Scaling from Emergent Abilities

論文の概要: Unlock Predictable Scaling from Emergent Abilities

arxiv url: http://arxiv.org/abs/2310.03262v1
Date: Thu, 5 Oct 2023 02:35:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-06 19:40:05.841557
Title: Unlock Predictable Scaling from Emergent Abilities
Title（参考訳）: 創発能力からのアンロック予測可能なスケーリング
Authors: Shengding Hu, Xin Liu, Xu Han, Xinrong Zhang, Chaoqun He, Weilin Zhao, Yankai Lin, Ning Ding, Zebin Ou, Guoyang Zeng, Zhiyuan Liu, Maosong Sun
Abstract要約: タスクパフォーマンスのスケーリング法則を定量的に検討する。厳密なタスクスケーリング法が特定され、タスクパフォーマンスの予測可能性を高める。我々は、創発的能力の具体的な証拠を観察し、それらがパフォーマンス改善の継続性と矛盾していないことを確かめる。
参考スコア（独自算出の注目度）: 88.20708472619356
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The scientific scale-up of large language models (LLMs) necessitates a comprehensive understanding of their scaling properties. However, the existing literature on the scaling properties only yields an incomplete answer: optimization loss decreases predictably as the model size increases, in line with established scaling law; yet no scaling law for task has been established and the task performances are far from predictable during scaling. Task performances typically show minor gains on small models until they improve dramatically once models exceed a size threshold, exemplifying the ``emergent abilities''. In this study, we discover that small models, although they exhibit minor performance, demonstrate critical and consistent task performance improvements that are not captured by conventional evaluation strategies due to insufficient measurement resolution. To measure such improvements, we introduce PassUntil, an evaluation strategy through massive sampling in the decoding phase. We conduct quantitative investigations into the scaling law of task performance. Firstly, a strict task scaling law is identified, enhancing the predictability of task performances. Remarkably, we are able to predict the performance of the 2.4B model on code generation with merely 0.05\% deviation before training starts. Secondly, underpinned by PassUntil, we observe concrete evidence of emergent abilities and ascertain that they are not in conflict with the continuity of performance improvement. Their semblance to break-through is that their scaling curve cannot be fitted by standard scaling law function. We then introduce a mathematical definition for the emergent abilities. Through the definition, we refute a prevalent ``multi-step reasoning hypothesis'' regarding the genesis of emergent abilities and propose a new hypothesis with a satisfying fit to the observed scaling curve.
Abstract（参考訳）: 大規模言語モデル(llms)の科学的スケールアップは、そのスケーリング特性の包括的理解を必要とする。しかし、既存のスケーリング特性に関する文献では、モデルのサイズが大きくなるにつれて最適化損失は予測通りに減少するが、タスクのスケーリング法則は確立されておらず、スケーリング中にタスクパフォーマンスが予測できないという不完全な答えしか得られていない。タスクパフォーマンスは通常、モデルがサイズしきい値を超えると劇的に改善するまで小さなモデルで小さな改善を示し、‘緊急能力’を例示する。そこで本研究では,小型モデルでは小さな性能を示すが,従来の評価手法では測定精度の不十分さから捉えられていない,クリティカルで一貫性のあるタスク性能改善を示す。このような改善を評価するために,復号フェーズにおける大規模なサンプリングによる評価戦略であるPassUntilを導入する。タスクパフォーマンスのスケーリング法則を定量的に検討する。まず、厳密なタスクスケーリング則を特定し、タスクパフォーマンスの予測可能性を高める。注目すべきは、トレーニング開始前にわずか0.05\%の偏差でコード生成における2.4Bモデルのパフォーマンスを予測できることです。第二に, パシュンティルに基礎を置き, 創発能力の具体的証拠を観察し, 性能改善の継続性と矛盾していないことを確かめる。彼らのブレークスルーへのセマンランスは、スケーリング曲線が標準スケーリング法則関数によって適合できないことである。次に,創発能力に対する数学的定義を導入する。この定義を通じて,創発能力の発生に関する一般的な「多段階推論仮説」を反論し,観測されたスケーリング曲線に適合する新しい仮説を提案する。

関連論文リスト

Scaling Laws Are Unreliable for Downstream Tasks: A Reality Check [41.91125949945726]
下流のスケーリング法は、小規模での事前学習損失から大規模でのタスクパフォーマンスを予測することを目的としている。我々は、下流のスケーリング法則に関する既存のデータのメタ分析を行い、リニアスケーリング法則に準ずることが少数のケースでのみ発生することを発見した。明らかに実験的な設定の変更は、スケーリングの傾向を完全に変える可能性がある。
論文参考訳（メタデータ） (2025-07-01T15:52:55Z)
Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文参考訳（メタデータ） (2025-05-29T03:19:17Z)
Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文参考訳（メタデータ） (2025-05-26T20:58:45Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文参考訳（メタデータ） (2024-10-21T18:00:06Z)
Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文参考訳（メタデータ） (2024-05-17T17:49:44Z)
Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。 Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文参考訳（メタデータ） (2024-04-15T21:02:48Z)
Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文参考訳（メタデータ） (2023-06-15T20:11:23Z)
Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文参考訳（メタデータ） (2023-01-16T14:25:02Z)
Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文参考訳（メタデータ） (2022-02-13T19:13:00Z)
Scaling Laws for Deep Learning [1.90365714903665]
この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
論文参考訳（メタデータ） (2021-08-17T15:37:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。