論文の概要: Inverse scaling can become U-shaped
- arxiv url: http://arxiv.org/abs/2211.02011v1
- Date: Thu, 3 Nov 2022 17:26:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 13:16:29.940876
- Title: Inverse scaling can become U-shaped
- Title(参考訳): 逆スケーリングはU字型になり得る
- Authors: Jason Wei, Yi Tay, Quoc V. Le
- Abstract要約: 大規模モデルではパフォーマンスが悪化する4つの「逆スケーリング」タスクを評価する。
4つのタスクのうち3つは、私たちが'U字型スケーリング'と呼ぶものを示しています。
4つのタスクはいずれもU字型のスケーリングか正のスケーリングを示し、2つのタスクといくつかのサブタスクで完全な解決率を達成する。
- 参考スコア(独自算出の注目度): 138.03701772914766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although scaling language models improves performance on a range of tasks,
there are apparently some scenarios where scaling hurts performance. For
instance, the Inverse Scaling Prize Round 1 identified four ''inverse scaling''
tasks, for which performance gets worse for larger models. These tasks were
evaluated on models of up to 280B parameters, trained up to 500 zettaFLOPs of
compute.
This paper takes a closer look at these four tasks. We evaluate models of up
to 540B parameters, trained on five times more compute than those evaluated in
the Inverse Scaling Prize. With this increased range of model sizes and
training compute, three out of the four tasks exhibit what we call ''U-shaped
scaling'' -- performance decreases up to a certain model size, and then
increases again up to the largest model evaluated. One hypothesis is that
U-shaped scaling occurs when a task comprises a ''true task'' and a
''distractor task''. Medium-size models can do the distractor task, which hurts
performance, while only large-enough models can ignore the distractor task and
do the true task. The existence of U-shaped scaling implies that inverse
scaling may not hold for larger models.
Second, we evaluate the inverse scaling tasks using chain-of-thought (CoT)
prompting, in addition to basic prompting without CoT. With CoT prompting, all
four tasks show either U-shaped scaling or positive scaling, achieving perfect
solve rates on two tasks and several sub-tasks. This suggests that the term
"inverse scaling task" is under-specified -- a given task may be inverse
scaling for one prompt but positive or U-shaped scaling for a different prompt.
- Abstract(参考訳): 言語モデルのスケーリングはさまざまなタスクのパフォーマンスを改善するが、スケーリングがパフォーマンスを損なうシナリオもあるようだ。
例えば、逆スケーリング賞の第1ラウンドでは、より大きなモデルではパフォーマンスが悪化する4つの‘逆スケーリング’タスクを特定した。
これらのタスクは最大280Bパラメータのモデルで評価され、500ゼッタFLOPまで訓練された。
本稿では,この4つの課題について概観する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
このモデルサイズの増加とトレーニング計算により、4つのタスクのうち3つは、私たちが'U字型のスケーリング'と呼ぶものを示します。
一つの仮説は、タスクが 'true task' と 'distractor task' からなるときに u-shaped scaling が発生するというものである。
中規模のモデルは邪魔者タスクを実行し、パフォーマンスを損なうが、大規模なモデルだけが邪魔者タスクを無視し、真のタスクを実行できる。
u型スケーリングの存在は、大きなモデルでは逆スケーリングが成立しないことを意味する。
第2に,CoTのない基本的なプロンプトに加えて,チェーン・オブ・シント(CoT)プロンプトを用いた逆スケーリングタスクの評価を行った。
CoTのプロンプトでは、4つのタスク全てがU字型のスケーリングまたは正のスケーリングを示し、2つのタスクといくつかのサブタスクで完全な解決率を達成する。
このことは、"逆スケーリングタスク"という用語が未定義であることを示している。与えられたタスクは、1つのプロンプトでは逆スケーリング、別のプロンプトでは正またはU字のスケーリングであるかもしれない。
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - U-shaped and Inverted-U Scaling behind Emergent Abilities of Large Language Models [1.14179290793997]
大規模言語モデル(LLM)は、いくつかの下流タスクにおいて創発的な能力を示すことが示されている。
難解な質問に対してU字型のスケーリングを観察し、逆U字のスケーリングに続いて、簡単な質問に対して着実に改善する。
Slice-and-Sandwichと呼ばれる単純なパイプラインを提案し、しきい値を超える出現閾値とモデル性能の両方を予測する。
論文 参考訳(メタデータ) (2024-10-02T16:03:49Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Emergent inabilities? Inverse scaling over the course of pretraining [0.6091702876917281]
本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
論文 参考訳(メタデータ) (2023-05-24T03:42:43Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。