論文の概要: U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2410.01692v2
- Date: Wed, 12 Feb 2025 13:03:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 18:10:00.655129
- Title: U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models
- Title(参考訳): 大規模言語モデルの創発能力を支えるU字型および逆U字型スケーリング
- Authors: Tung-Yu Wu, Pei-Yu Lo,
- Abstract要約: 難易度に基づく質問をグループ化することで,その現象を考察する。
具体的には,難解な質問に対するU字型スケーリングと逆U字型スケーリングと,簡単な質問に対する着実に改善されたU字型スケーリングを観察する。
簡単な質問のスケーリングパターンが逆から標準のスケーリングに戻ると、パフォーマンスが急上昇し始めます。
- 参考スコア(独自算出の注目度): 1.14179290793997
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to exhibit emergent abilities in some downstream tasks, where model performance stagnates at first and then improves sharply and unpredictably with scale beyond a threshold. In this work, we investigate the phenomenon by grouping questions based on difficulty level and provide a possible explanation for emergent abilities. Specifically, we observe U-shaped scaling for hard questions and inverted-U scaling followed by steady improvement for easy questions. The two scaling patterns initially offset each other, causing stagnant overall performance. The performance starts to soar when the scaling pattern of easy questions reverts from inverse to standard scaling, leading to emergent abilities. Based on this finding, we propose a simple yet effective pipeline, called Slice-and-Sandwich, to predict the emergence threshold and model performance beyond the threshold. Our code is publicly available at https://github.com/tony10101105/ExpEmergence.
- Abstract(参考訳): 大規模言語モデル(LLM)は、いくつかの下流タスクにおいて創発的な能力を示すことが示されている。
本研究では,難易度に基づく質問をグループ化することで,その現象を解明し,創発的能力の説明を可能にする。
具体的には,難解な質問に対するU字型スケーリングと逆U字型スケーリングと,簡単な質問に対する着実に改善されたU字型スケーリングを観察する。
2つのスケーリングパターンは、最初は互いに相反し、全体的なパフォーマンスが停滞した。
簡単な質問のスケーリングパターンが逆から標準のスケーリングに戻ると、パフォーマンスが急上昇し始めます。
そこで本研究では,Slice-and-Sandwichと呼ばれる単純なパイプラインを提案する。
私たちのコードはhttps://github.com/tony10101105/ExpEmergence.comで公開されています。
関連論文リスト
- Towards Scalable and Deep Graph Neural Networks via Noise Masking [59.058558158296265]
グラフニューラルネットワーク(GNN)は多くのグラフマイニングタスクで顕著に成功している。
計算とストレージのコストが高いため、大きなグラフにスケールすることは困難です。
既存のモデル単純化作業と互換性のあるプラグアンドプレイモジュールであるノイズマスキング(RMask)を用いたランダムウォークを提案する。
論文 参考訳(メタデータ) (2024-12-19T07:48:14Z) - Scale-Invariant Learning-to-Rank [0.0]
Expediaでは、学習からランクまでのモデルが、ユーザがより関連性のある情報をソートし提示する上で重要な役割を担っている。
これらのモデルをデプロイする上で大きな課題は、トレーニングと運用データ間の一貫した機能スケーリングを保証することだ。
本稿では,学習時間と予測時間の両方でモデル内のスケール不変性を数学的に保証するために,ディープニューラルネットワークとワイドニューラルネットワークを組み合わせたスケール不変LTRフレームワークを提案する。
我々は、予測時にテストセットを摂動させることにより、実世界のシナリオをシミュレーションして評価し、一貫性のないトレインテストのスケーリングであっても、フレームワークを使用した場合よりも優れたパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2024-10-02T19:05:12Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Emergent inabilities? Inverse scaling over the course of pretraining [0.6091702876917281]
本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
論文 参考訳(メタデータ) (2023-05-24T03:42:43Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。