論文の概要: U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.01692v1
- Date: Wed, 2 Oct 2024 16:03:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:03:18.793550
- Title: U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
- Title(参考訳): 大規模言語モデルの創発能力を支えるU字型および逆U字型スケーリング
- Authors: Tung-Yu Wu, Pei-Yu Lo,
- Abstract要約: 大規模言語モデル(LLM)は、いくつかの下流タスクにおいて創発的な能力を示すことが示されている。
難解な質問に対してU字型のスケーリングを観察し、逆U字のスケーリングに続いて、簡単な質問に対して着実に改善する。
Slice-and-Sandwichと呼ばれる単純なパイプラインを提案し、しきい値を超える出現閾値とモデル性能の両方を予測する。
- 参考スコア(独自算出の注目度): 1.14179290793997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to exhibit emergent abilities in some downstream tasks, where performance seems to stagnate at first and then improve sharply and unpredictably with scale beyond a threshold. By dividing questions in the datasets according to difficulty level by average performance, we observe U-shaped scaling for hard questions, and inverted-U scaling followed by steady improvement for easy questions. Moreover, the emergence threshold roughly coincides with the point at which performance on easy questions reverts from inverse scaling to standard scaling. Capitalizing on the observable though opposing scaling trend on easy and hard questions, we propose a simple yet effective pipeline, called Slice-and-Sandwich, to predict both the emergence threshold and model performance beyond the threshold.
- Abstract(参考訳): 大規模言語モデル(LLM)は、一部の下流タスクにおいて、パフォーマンスが最初は停滞し、しきい値を超えるスケールで、急激かつ予測不能に改善しているように見える突発的な能力を示すことが示されている。
難易度に応じてデータセット内の質問を平均性能で分割することにより、難解な質問に対するU字型スケーリングと逆U字型スケーリングを観察し、簡単な質問に対する着実に改善する。
さらに、出現しきい値は、逆スケーリングから標準スケーリングに逆戻りする簡単な質問のパフォーマンスとほぼ一致する。
Slice-and-Sandwichと呼ばれるシンプルで効果的なパイプラインを提案し、出現しきい値とモデル性能の両方をしきい値を超えて予測する。
関連論文リスト
- Scale-Invariant Learning-to-Rank [0.0]
Expediaでは、学習からランクまでのモデルが、ユーザがより関連性のある情報をソートし提示する上で重要な役割を担っている。
これらのモデルをデプロイする上で大きな課題は、トレーニングと運用データ間の一貫した機能スケーリングを保証することだ。
本稿では,学習時間と予測時間の両方でモデル内のスケール不変性を数学的に保証するために,ディープニューラルネットワークとワイドニューラルネットワークを組み合わせたスケール不変LTRフレームワークを提案する。
我々は、予測時にテストセットを摂動させることにより、実世界のシナリオをシミュレーションして評価し、一貫性のないトレインテストのスケーリングであっても、フレームワークを使用した場合よりも優れたパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T19:05:12Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Emergent inabilities? Inverse scaling over the course of pretraining [0.6091702876917281]
本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
論文 参考訳(メタデータ) (2023-05-24T03:42:43Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。