論文の概要: Emergent inabilities? Inverse scaling over the course of pretraining
- arxiv url: http://arxiv.org/abs/2305.14681v1
- Date: Wed, 24 May 2023 03:42:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 20:10:24.787363
- Title: Emergent inabilities? Inverse scaling over the course of pretraining
- Title(参考訳): 創発的障害?
事前トレーニングの過程での逆スケーリング
- Authors: James A. Michaelov, Benjamin K. Bergen
- Abstract要約: 本研究は,訓練期間を通じて,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するか否かを考察する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does inverse scaling only occur as a function of model parameter size, or can
it also occur over the course of training? We carry out an exploratory study
investigating whether, over the course of training on the language modeling
task, the performance of language models at specific tasks can decrease while
general performance remains high. We find that for two tasks from the Inverse
Scaling Challenge - quote-repetition and redefine-math - this is indeed the
case. Specifically, we find that for Pythia (Biderman et al., 2023) models with
a higher number of parameters, performance decreases over the course of
training at these two tasks, despite these models showing standard (positive)
scaling overall. This highlights the importance of testing model performance at
all relevant benchmarks any time they are trained on additional data, even if
their overall performance improves.
- Abstract(参考訳): 逆スケーリングはモデルパラメータサイズの関数としてのみ発生するのか、あるいはトレーニングの過程で発生するのか?
本研究では,言語モデリングタスクのトレーニングの過程で,一般的な性能を維持しながら,特定のタスクにおける言語モデルの性能が低下するかどうかを探索研究する。
逆スケーリングチャレンジの2つのタスク – 引用-繰り返しと再定義-マス – に対して,これは事実です。
具体的には、pythia (biderman et al., 2023)モデルがパラメータ数が高い場合には、これらのモデルが全体的な(ポジティブな)スケーリングを示しているにもかかわらず、この2つのタスクでのトレーニングの過程でパフォーマンスが低下することを発見した。
これは、たとえ全体的なパフォーマンスが改善したとしても、追加データでトレーニングされるたびに、すべての関連するベンチマークでモデルパフォーマンスをテストすることの重要性を強調します。
関連論文リスト
- Establishing Task Scaling Laws via Compute-Efficient Model Ladders [123.8193940110293]
我々は,事前訓練された言語モデル(LM)のタスク性能を予測するために,タスクスケーリング法則とモデルはしごを開発する。
まず、タスク固有の損失を予測するためにモデルとデータサイズを使用し、次にタスクの損失を使ってタスクパフォーマンスを予測する。
論文 参考訳(メタデータ) (2024-12-05T18:21:49Z) - Understanding Emergent Abilities of Language Models from the Loss Perspective [32.81782726603632]
モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討した。
モデルが,メトリクスの連続性に関係なく,特定のタスクに創発的能力を示すことがわかった。
これにより、事前学習の損失が低いモデルで現れるような、創発的能力を再定義するインスピレーションがもたらされる。
論文 参考訳(メタデータ) (2024-03-23T11:03:31Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z) - Beyond Positive Scaling: How Negation Impacts Scaling Trends of Language
Models [92.11542797811461]
否定を伴う質問からなるデータセットであるNeQAを紹介する。
このタスクは、逆スケーリング、U字型スケーリング、あるいは正のスケーリングを示すことができる。
タスク1は線形スケーリングであり、タスク2は緊急遷移点を持つシグモイド型スケーリングである。
論文 参考訳(メタデータ) (2023-05-27T00:07:17Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Inverse scaling can become U-shaped [126.64521446943155]
言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスを改善するために実証的に示されている。
本稿では,これらの逆スケーリングタスクについて詳しく検討する。
Inverse Scaling Prizeの5倍の計算量でトレーニングされた最大540Bパラメータのモデルを評価する。
論文 参考訳(メタデータ) (2022-11-03T17:26:44Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。