論文の概要: Unlock Predictable Scaling from Emergent Abilities
- arxiv url: http://arxiv.org/abs/2310.03262v1
- Date: Thu, 5 Oct 2023 02:35:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-06 19:40:05.841557
- Title: Unlock Predictable Scaling from Emergent Abilities
- Title(参考訳): 創発能力からのアンロック予測可能なスケーリング
- Authors: Shengding Hu, Xin Liu, Xu Han, Xinrong Zhang, Chaoqun He, Weilin Zhao,
Yankai Lin, Ning Ding, Zebin Ou, Guoyang Zeng, Zhiyuan Liu, Maosong Sun
- Abstract要約: タスクパフォーマンスのスケーリング法則を定量的に検討する。
厳密なタスクスケーリング法が特定され、タスクパフォーマンスの予測可能性を高める。
我々は、創発的能力の具体的な証拠を観察し、それらがパフォーマンス改善の継続性と矛盾していないことを確かめる。
- 参考スコア(独自算出の注目度): 88.20708472619356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scientific scale-up of large language models (LLMs) necessitates a
comprehensive understanding of their scaling properties. However, the existing
literature on the scaling properties only yields an incomplete answer:
optimization loss decreases predictably as the model size increases, in line
with established scaling law; yet no scaling law for task has been established
and the task performances are far from predictable during scaling. Task
performances typically show minor gains on small models until they improve
dramatically once models exceed a size threshold, exemplifying the ``emergent
abilities''. In this study, we discover that small models, although they
exhibit minor performance, demonstrate critical and consistent task performance
improvements that are not captured by conventional evaluation strategies due to
insufficient measurement resolution. To measure such improvements, we introduce
PassUntil, an evaluation strategy through massive sampling in the decoding
phase. We conduct quantitative investigations into the scaling law of task
performance. Firstly, a strict task scaling law is identified, enhancing the
predictability of task performances. Remarkably, we are able to predict the
performance of the 2.4B model on code generation with merely 0.05\% deviation
before training starts. Secondly, underpinned by PassUntil, we observe concrete
evidence of emergent abilities and ascertain that they are not in conflict with
the continuity of performance improvement. Their semblance to break-through is
that their scaling curve cannot be fitted by standard scaling law function. We
then introduce a mathematical definition for the emergent abilities. Through
the definition, we refute a prevalent ``multi-step reasoning hypothesis''
regarding the genesis of emergent abilities and propose a new hypothesis with a
satisfying fit to the observed scaling curve.
- Abstract(参考訳): 大規模言語モデル(llms)の科学的スケールアップは、そのスケーリング特性の包括的理解を必要とする。
しかし、既存のスケーリング特性に関する文献では、モデルのサイズが大きくなるにつれて最適化損失は予測通りに減少するが、タスクのスケーリング法則は確立されておらず、スケーリング中にタスクパフォーマンスが予測できないという不完全な答えしか得られていない。
タスクパフォーマンスは通常、モデルがサイズしきい値を超えると劇的に改善するまで小さなモデルで小さな改善を示し、‘緊急能力’を例示する。
そこで本研究では,小型モデルでは小さな性能を示すが,従来の評価手法では測定精度の不十分さから捉えられていない,クリティカルで一貫性のあるタスク性能改善を示す。
このような改善を評価するために,復号フェーズにおける大規模なサンプリングによる評価戦略であるPassUntilを導入する。
タスクパフォーマンスのスケーリング法則を定量的に検討する。
まず、厳密なタスクスケーリング則を特定し、タスクパフォーマンスの予測可能性を高める。
注目すべきは、トレーニング開始前にわずか0.05\%の偏差でコード生成における2.4Bモデルのパフォーマンスを予測できることです。
第二に, パシュンティルに基礎を置き, 創発能力の具体的証拠を観察し, 性能改善の継続性と矛盾していないことを確かめる。
彼らのブレークスルーへのセマンランスは、スケーリング曲線が標準スケーリング法則関数によって適合できないことである。
次に,創発能力に対する数学的定義を導入する。
この定義を通じて,創発能力の発生に関する一般的な「多段階推論仮説」を反論し,観測されたスケーリング曲線に適合する新しい仮説を提案する。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。
我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文 参考訳(メタデータ) (2024-10-21T18:00:06Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Scaling Laws for Deep Learning [1.90365714903665]
この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。
まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。
そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
論文 参考訳(メタデータ) (2021-08-17T15:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。