論文の概要: Understanding Emergent Abilities of Language Models from the Loss Perspective
- arxiv url: http://arxiv.org/abs/2403.15796v2
- Date: Sat, 30 Mar 2024 09:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 13:35:12.030711
- Title: Understanding Emergent Abilities of Language Models from the Loss Perspective
- Title(参考訳): 損失から見た言語モデルの創発的能力の理解
- Authors: Zhengxiao Du, Aohan Zeng, Yuxiao Dong, Jie Tang,
- Abstract要約: モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討した。
学習前損失が特定の閾値以下になると,あるタスクに対して,モデルが創発的能力を示すことが判明した。
これにより、事前学習の損失が低いモデルで現れるような、創発的能力を再定義するインスピレーションがもたらされる。
- 参考スコア(独自算出の注目度): 32.81782726603632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have put into question the belief that emergent abilities in language models are exclusive to large models. This skepticism arises from two observations: 1) smaller models can also exhibit high performance on emergent abilities and 2) there is doubt on the discontinuous metrics used to measure these abilities. In this paper, we propose to study emergent abilities in the lens of pre-training loss, instead of model size or training compute. We demonstrate that the models with the same pre-training loss, but different model and data sizes, generate the same performance on various downstream tasks. We also discover that a model exhibits emergent abilities on certain tasks -- regardless of the continuity of metrics -- when its pre-training loss falls below a specific threshold. Before reaching this threshold, its performance remains at the level of random guessing. This inspires us to redefine emergent abilities as those that manifest in models with lower pre-training losses, highlighting that these abilities cannot be predicted by merely extrapolating the performance trends of models with higher pre-training losses.
- Abstract(参考訳): 近年の研究では、言語モデルにおける創発的能力は大規模モデルに限ったものであるという信念が疑問視されている。
この懐疑論は2つの観察から生じる。
1)小型モデルは創発能力に高い性能を示すことができる。
2)これらの能力を測定するために使用される不連続な指標には疑問がある。
本稿では,モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討する。
トレーニング前の損失が同じだが、異なるモデルとデータサイズを持つモデルが、下流の様々なタスクで同じパフォーマンスを生成することを実証する。
また、トレーニング前の損失が特定のしきい値を下回ると、あるタスク(メトリクスの連続性に関係なく)において、モデルが創発的な能力を示すこともわかりました。
このしきい値に達する前に、その性能はランダムな推測のレベルに留まる。
これにより、事前学習損失の低いモデルに現れるような創発的能力を再定義し、事前学習損失の大きいモデルのパフォーマンストレンドを単に外挿するだけでは予測できないことを強調した。
関連論文リスト
- Effects of Scale on Language Model Robustness [7.725206196110384]
逆向きに訓練された大規模モデルは、より小さなモデルと比較して、訓練中に見えないような攻撃に対して、より速く、より良く一般化できることが示される。
また、計算量の増加による悪用/防御のバランスを分析し、ある設定で同等性を見つけ、他の設定で悪用する利点を見つけます。
論文 参考訳(メタデータ) (2024-07-25T17:26:41Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Why do small language models underperform? Studying Language Model Saturation via the Softmax Bottleneck [11.416426888383873]
より小型モデルは飽和に悩まされる可能性があり,訓練の先進点における性能低下を特徴とする。
これは、より小さなモデルの隠れ次元とターゲットの文脈確率分布の高階とのミスマッチによって説明できる。
各種設定におけるソフトマックスボトルネックの影響を計測し,1000次元未満の隠れ次元に基づくモデルでは,遅延事前学習において退化した潜在表現を採用する傾向にあることを示す。
論文 参考訳(メタデータ) (2024-04-11T11:10:36Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Small-scale proxies for large-scale Transformer training instabilities [69.36381318171338]
我々は、小規模でトレーニングの安定性と不安定性を再現し、研究する方法を模索する。
学習速度とスケールによる損失の関係を計測することにより,これらの不安定性は,学習率の高いトレーニングにおいて,小さなモデルにも現れることを示す。
ウォームアップ,ウェイト崩壊,および$mu$Paramなどの手法を用いて,学習速度変化の桁数で同様の損失を被る小さなモデルを訓練する。
論文 参考訳(メタデータ) (2023-09-25T17:48:51Z) - Are Emergent Abilities of Large Language Models a Mirage? [9.683505038585988]
最近の研究は、大規模言語モデルには創発的な能力、大規模モデルに存在しない能力があると主張している。
ここでは、創発的能力の別の説明として、ある特定のタスクとモデルファミリーに対して、創発的能力は、研究者の計量の選択により現れる。
特に、非線形または不連続なメトリクスは明らかに創発的な能力を生み出すが、線形または連続的なメトリクスは滑らかで連続的なモデル性能の変化をもたらす。
論文 参考訳(メタデータ) (2023-04-28T17:52:11Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Reducing Risk of Model Inversion Using Privacy-Guided Training [0.0]
最近の攻撃では、訓練されたモデルから機密情報を推測することができた。
本稿では,木系モデルにおけるモデル逆転攻撃に対する対策について述べる。
論文 参考訳(メタデータ) (2020-06-29T09:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。