論文の概要: Predicting Emergent Abilities with Infinite Resolution Evaluation
- arxiv url: http://arxiv.org/abs/2310.03262v2
- Date: Thu, 30 Nov 2023 08:58:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:57:50.245065
- Title: Predicting Emergent Abilities with Infinite Resolution Evaluation
- Title(参考訳): 無限分解能評価による創発能力予測
- Authors: Shengding Hu, Xin Liu, Xu Han, Xinrong Zhang, Chaoqun He, Weilin Zhao,
Yankai Lin, Ning Ding, Zebin Ou, Guoyang Zeng, Zhiyuan Liu, Maosong Sun
- Abstract要約: 本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
- 参考スコア(独自算出の注目度): 88.20708472619356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scientific scale-up of large language models (LLMs) necessitates a
comprehensive understanding of their scaling properties. However, the existing
literature on the scaling properties only yields an incomplete answer:
optimization loss decreases predictably as the model size increases, in line
with established scaling law; yet no scaling law for task has been established
and the task performances are far from predictable during scaling. Task
performances typically show minor gains on small models until they improve
dramatically once models exceed a size threshold, exemplifying the ``emergent
abilities''. In this study, we discover that small models, although they
exhibit minor performance, demonstrate critical and consistent task performance
improvements that are not captured by conventional evaluation strategies due to
insufficient measurement resolution. To measure such improvements, we introduce
PassUntil, an evaluation strategy with theoretically infinite resolution,
through massive sampling in the decoding phase. With PassUntil, we conduct a
quantitative investigation into the scaling law of task performance. The
investigation contains two parts. Firstly, a strict task scaling law that is
not conventionally known to exist, is identified, enhancing the predictability
of task performances. Remarkably, we are able to predict the performance of the
2.4B model on code generation with merely 0.05\% deviation before training
starts, which is the first systematic attempt to verify predictable scaling
proposed by GPT-4's report. Secondly, we are able to study emergent abilities
quantitatively. We identify a kind of accelerated emergence whose scaling curve
cannot be fitted by standard scaling law function and has a increasing speed.
We then examine two hypothesis and imply that the ``multiple circuits
hypothesis'' might be responsible for the accelerated emergence.
- Abstract(参考訳): 大規模言語モデル(llms)の科学的スケールアップは、そのスケーリング特性の包括的理解を必要とする。
しかし、既存のスケーリング特性に関する文献では、モデルのサイズが大きくなるにつれて最適化損失は予測通りに減少するが、タスクのスケーリング法則は確立されておらず、スケーリング中にタスクパフォーマンスが予測できないという不完全な答えしか得られていない。
タスクパフォーマンスは通常、モデルがサイズしきい値を超えると劇的に改善するまで小さなモデルで小さな改善を示し、‘緊急能力’を例示する。
そこで本研究では,小型モデルでは小さな性能を示すが,従来の評価手法では測定精度の不十分さから捉えられていない,クリティカルで一貫性のあるタスク性能改善を示す。
このような改良を計測するために,理論上無限の解像度を持つ評価戦略であるpassuntilを提案する。
PassUntilでは,タスクパフォーマンスのスケーリング法則を定量的に検討する。
調査には2つの部分が含まれる。
まず、従来は存在が分かっていない厳密なタスクスケーリング則を特定し、タスクパフォーマンスの予測可能性を高める。
注目すべきなのは,トレーニング開始前に0.05\%の偏差しか持たないコード生成における2.4bモデルの性能を予測できることだ。
第2に、創発能力を定量的に研究することができる。
スケーリング曲線が標準スケーリング法則関数に適合できず,速度が向上する,高速化された出現種を同定する。
次に2つの仮説を考察し, ‘multiple circuits hypothesis’' が創発の加速に寄与する可能性を示唆した。
関連論文リスト
- Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - A Simple Model of Inference Scaling Laws [1.3597551064547502]
スケーリング法則を推論の文脈で研究し、特に複数の推論による性能向上について検討する。
我々の単純なフレームワークは、推論スケーリングを他の既知のスケーリング法則に組み込むための基盤となる。
論文 参考訳(メタデータ) (2024-10-21T18:00:06Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Language Model Cascades: Token-level uncertainty and beyond [65.38515344964647]
言語モデル(LM)の最近の進歩により、複雑なNLPタスクの品質が大幅に向上した。
Cascadingは、より好ましいコスト品質のトレードオフを達成するためのシンプルな戦略を提供する。
トークンレベルの不確実性を学習後遅延ルールに組み込むことで,単純な集約戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2024-04-15T21:02:48Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Modeling Uncertain Feature Representation for Domain Generalization [49.129544670700525]
提案手法は,複数の視覚タスクにおけるネットワーク一般化能力を常に改善することを示す。
我々の手法は単純だが有効であり、トレーニング可能なパラメータや損失制約を伴わずにネットワークに容易に統合できる。
論文 参考訳(メタデータ) (2023-01-16T14:25:02Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Scaling Laws for Deep Learning [1.90365714903665]
この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。
まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。
そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
論文 参考訳(メタデータ) (2021-08-17T15:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。