論文の概要: Inverse scaling can become U-shaped
- arxiv url: http://arxiv.org/abs/2211.02011v5
- Date: Wed, 24 May 2023 06:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 03:01:42.433231
- Title: Inverse scaling can become U-shaped
- Title(参考訳): 逆スケーリングはU字型になり得る
- Authors: Jason Wei, Najoung Kim, Yi Tay, Quoc V. Le
- Abstract要約: 言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
- 参考スコア(独自算出の注目度): 126.64521446943155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up language models has been empirically shown to improve performance
on a wide range of downstream tasks. However, if we were to observe worse
performance as a function of scale ("inverse scaling") on certain tasks, this
would indicate that scaling can also encourage behaviors that are misaligned
with human preferences. The Inverse Scaling Prize (McKenzie et al. 2022)
identified eleven such inverse scaling tasks, evaluated on models of up to 280B
parameters and up to 500 zettaFLOPs of training compute. This paper takes a
closer look at these inverse scaling tasks. We evaluate models of up to 540B
parameters, trained on five times more compute than those evaluated in the
Inverse Scaling Prize. With this increased range of model sizes and training
compute, only four out of the eleven tasks remain inverse scaling. Six out of
the eleven tasks exhibit "U-shaped scaling", where performance decreases up to
a certain size, and then increases again up to the largest model evaluated (the
one remaining task displays positive scaling). In addition, we find that 1-shot
examples and chain-of-thought can help mitigate undesirable scaling patterns
even further. U-shaped scaling suggests that the inverse scaling trend observed
in McKenzie et al. (2022) may not continue to hold for larger models, which we
attribute to the presence of distractor tasks that only sufficiently large
models can avoid.
- Abstract(参考訳): 言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
しかしながら、あるタスクにおけるスケール(逆スケーリング)の関数としてパフォーマンスを悪くする("逆スケーリング")とすれば、スケーリングは人間の好みと不一致な振る舞いを促進できることを意味します。
逆スケーリング賞(McKenzie et al. 2022)は、最大280Bパラメータと最大500ゼッタFLOPのトレーニング計算モデルに基づいて、11個の逆スケーリングタスクを特定した。
本稿では,これらの逆スケーリングタスクについて詳しく述べる。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
このモデルサイズの増加とトレーニング計算により、11タスクのうち4タスクだけが逆スケーリングのままである。
11のタスクのうち6つは"U字型のスケーリング"を示し、パフォーマンスは一定のサイズまで低下し、次に評価された最大のモデルに再び増加します(残りの1つのタスクは前向きなスケーリングを示しています)。
さらに、1ショットの例やチェーン・オブ・シンクは、望ましくないスケーリングパターンをさらに緩和するのに役立ちます。
u字型のスケーリングは、mckenzie et al. (2022)で観察された逆スケーリングの傾向が、十分に大きなモデルしか避けられない邪魔なタスクの存在を特徴とする、より大きなモデルでは持続しないことを示唆している。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models [1.14179290793997]
大規模言語モデル(LLM)は、いくつかの下流タスクにおいて創発的な能力を示すことが示されている。
難解な質問に対してU字型のスケーリングを観察し、逆U字のスケーリングに続いて、簡単な質問に対して着実に改善する。
Slice-and-Sandwichと呼ばれる単純なパイプラインを提案し、しきい値を超える出現閾値とモデル性能の両方を予測する。
論文 参考訳(メタデータ) (2024-10-02T16:03:49Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Emergent inabilities? Inverse scaling over the course of pretraining [0.6091702876917281]
本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
論文 参考訳(メタデータ) (2023-05-24T03:42:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。