論文の概要: Inverse Scaling: When Bigger Isn't Better
- arxiv url: http://arxiv.org/abs/2306.09479v2
- Date: Mon, 13 May 2024 01:25:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 01:32:17.016362
- Title: Inverse Scaling: When Bigger Isn't Better
- Title(参考訳): 逆スケーリング:ビッグガーが良くないとき
- Authors: Ian R. McKenzie, Alexander Lyzhov, Michael Pieler, Alicia Parrish, Aaron Mueller, Ameya Prabhu, Euan McLean, Aaron Kirtland, Alexis Ross, Alisa Liu, Andrew Gritsevskiy, Daniel Wurgaft, Derik Kauffman, Gabriel Recchia, Jiacheng Liu, Joe Cavanagh, Max Weiss, Sicong Huang, The Floating Droid, Tom Tseng, Tomasz Korbak, Xudong Shen, Yuhui Zhang, Zhengping Zhou, Najoung Kim, Samuel R. Bowman, Ethan Perez,
- Abstract要約: 大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
- 参考スコア(独自算出の注目度): 80.42834197416444
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Work on scaling laws has found that large language models (LMs) show predictable improvements to overall loss with increased scale (model size, training data, and compute). Here, we present evidence for the claim that LMs may show inverse scaling, or worse task performance with increased scale, e.g., due to flaws in the training objective and data. We present empirical evidence of inverse scaling on 11 datasets collected by running a public contest, the Inverse Scaling Prize, with a substantial prize pool. Through analysis of the datasets, along with other examples found in the literature, we identify four potential causes of inverse scaling: (i) preference to repeat memorized sequences over following in-context instructions, (ii) imitation of undesirable patterns in the training data, (iii) tasks containing an easy distractor task which LMs could focus on, rather than the harder real task, and (iv) correct but misleading few-shot demonstrations of the task. We release the winning datasets at https://inversescaling.com/data to allow for further investigation of inverse scaling. Our tasks have helped drive the discovery of U-shaped and inverted-U scaling trends, where an initial trend reverses, suggesting that scaling trends are less reliable at predicting the behavior of larger-scale models than previously understood. Overall, our results suggest that there are tasks for which increased model scale alone may not lead to progress, and that more careful thought needs to go into the data and objectives for training language models.
- Abstract(参考訳): 大規模言語モデル(LM)は、スケールの増大による全体的な損失(モデルサイズ、トレーニングデータ、計算)に対して予測可能な改善を示す。
ここでは、学習目標やデータに欠陥があるため、逆スケーリングや、スケールの増大によるタスクパフォーマンスの悪化が生じる可能性があるという主張の証拠を示す。
パブリックコンテストである逆スケーリング賞(Inverse Scaling Prize)の実施によって収集された11のデータセットに対して,相当な賞金プールを有する逆スケーリングの実証的証拠を提示する。
データセットの分析を通じて、文献で見られる他の例とともに、逆スケーリングの潜在的な4つの原因を同定する。
一 文中の指示に従うことよりも、暗記した順序を繰り返すことを好むこと。
二 トレーニングデータにおける望ましくないパターンの模倣
三 難易度タスクを含むタスクであって、LMがより厳格なタスクではなく、集中できるものであって、
(4) タスクの正しいが誤解を招く数発のデモ。
優勝したデータセットをhttps://inversescaling.com/dataでリリースし、逆スケーリングのさらなる調査を可能にします。
我々のタスクは、初期の傾向が逆転するU字型および逆U字型のスケーリングトレンドの発見を促進するのに役立ち、スケールトレンドは以前より大規模なモデルの振る舞いを予測する上で信頼性が低いことを示唆している。
全体としては、モデルスケールの増大だけでは進歩に至らないタスクがあり、言語モデルを訓練するためのデータや目的についてより慎重に考える必要があることを示唆している。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデルにおける一般化と記憶の相互作用について検討する。
各種のオープンソースLLMとその事前学習コーパスを用いて、モデルのサイズが大きくなるにつれて、タスク関連$n$-gramのペアデータの重要性が増すのを観察する。
その結果,LLMの能力は,十分なタスク関連事前学習データによる記憶と一般化の微妙なバランスから生じるという仮説を支持した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Scaling Laws for Downstream Task Performance of Large Language Models [28.904224842085064]
プレトレーニングデータの選択が、下流のクロスエントロピーとBLEUスコアの2つの指標から判断された下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。
十分なアライメントで、下流のクロスエントロピーとBLEUスコアは、より事前トレーニングされたデータによって単調に改善される。
論文 参考訳(メタデータ) (2024-02-06T17:31:20Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。