論文の概要: Are Emergent Abilities of Large Language Models a Mirage?
- arxiv url: http://arxiv.org/abs/2304.15004v1
- Date: Fri, 28 Apr 2023 17:52:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 13:16:11.438257
- Title: Are Emergent Abilities of Large Language Models a Mirage?
- Title(参考訳): 大規模言語モデルの創発的能力はミラージュか?
- Authors: Rylan Schaeffer, Brando Miranda, Sanmi Koyejo
- Abstract要約: 最近の研究は、大規模言語モデルには創発的な能力、大規模モデルに存在しない能力があると主張している。
創発的能力が興味をそそられるのは、その鋭さと、現在から現在へ即時に移行しているように見えること、予測不可能なモデルスケールで現れることの2つだ。
ここでは、創発的能力の別の説明として、ある特定のタスクとモデルファミリーに対して、創発的能力の推論につながる計量を選択するか、そうでない別の計量を選択することができる。
- 参考スコア(独自算出の注目度): 9.683505038585988
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent work claims that large language models display emergent abilities,
abilities not present in smaller-scale models that are present in larger-scale
models. What makes emergent abilities intriguing is two-fold: their sharpness,
transitioning seemingly instantaneously from not present to present, and their
unpredictability, appearing at seemingly unforeseeable model scales. Here, we
present an alternative explanation for emergent abilities: that for a
particular task and model family, when analyzing fixed model outputs, one can
choose a metric which leads to the inference of an emergent ability or another
metric which does not. Thus, our alternative suggests that existing claims of
emergent abilities are creations of the researcher's analyses, not fundamental
changes in model behavior on specific tasks with scale. We present our
explanation in a simple mathematical model, then test it in three complementary
ways: we (1) make, test and confirm three predictions on the effect of metric
choice using the InstructGPT/GPT-3 family on tasks with claimed emergent
abilities, (2) make, test and confirm two predictions about metric choices in a
meta-analysis of emergent abilities on BIG-Bench; and (3) show how similar
metric decisions suggest apparent emergent abilities on vision tasks in diverse
deep network architectures (convolutional, autoencoder, transformers). In all
three analyses, we find strong supporting evidence that emergent abilities may
not be a fundamental property of scaling AI models.
- Abstract(参考訳): 最近の研究は、大規模言語モデルには創発的な能力、大規模モデルに存在しない能力があると主張している。
創発的能力が興味をそそられるのは、その鋭さと、現在から現在へ即時に移行しているように見えること、予測不可能なモデルスケールで現れることの2つだ。
ここでは、ある特定のタスクとモデルファミリーに対して、固定されたモデル出力を分析する際に、創発的能力の推論につながるメトリックを選択するか、そうでない別のメトリックを選択することができる。
したがって,既存の創発能力の主張は,特定のタスクにおけるモデル行動の基本的な変化ではなく,研究者の分析の創作であることが示唆された。
We present our explanation in a simple mathematical model, then test it in three complementary ways: we (1) make, test and confirm three predictions on the effect of metric choice using the InstructGPT/GPT-3 family on tasks with claimed emergent abilities, (2) make, test and confirm two predictions about metric choices in a meta-analysis of emergent abilities on BIG-Bench; and (3) show how similar metric decisions suggest apparent emergent abilities on vision tasks in diverse deep network architectures (convolutional, autoencoder, transformers).
これら3つの分析において、創発能力がAIモデルをスケーリングする基本的な性質ではないという強い支持証拠が見つかる。
関連論文リスト
- Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。
我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文 参考訳(メタデータ) (2024-09-13T18:01:49Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Understanding Emergent Abilities of Language Models from the Loss Perspective [32.81782726603632]
モデルサイズやトレーニング計算の代わりに,事前学習損失のレンズの創発能力について検討した。
学習前損失が特定の閾値以下になると,あるタスクに対して,モデルが創発的能力を示すことが判明した。
これにより、事前学習の損失が低いモデルで現れるような、創発的能力を再定義するインスピレーションがもたらされる。
論文 参考訳(メタデータ) (2024-03-23T11:03:31Z) - Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Limitations of Agents Simulated by Predictive Models [1.6649383443094403]
エージェントとなると予測モデルが失敗する2つの構造的理由を概説する。
いずれの障害も環境からのフィードバックループを組み込むことで修正可能であることを示す。
我々の治療は、これらの障害モードの統一的なビューを提供し、オンライン学習でオフライン学習ポリシーを微調整することで、より効果的になる理由を疑問視する。
論文 参考訳(メタデータ) (2024-02-08T17:08:08Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Emergent Abilities of Large Language Models [172.08007363384218]
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。
このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
論文 参考訳(メタデータ) (2022-06-15T17:32:01Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。