論文の概要: Emergent Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2206.07682v1
- Date: Wed, 15 Jun 2022 17:32:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:19:17.700649
- Title: Emergent Abilities of Large Language Models
- Title(参考訳): 大規模言語モデルの創発的能力
- Authors: Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph,
Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler,
Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean,
William Fedus
- Abstract要約: より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。
このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味している。
- 参考スコア(独自算出の注目度): 172.08007363384218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up language models has been shown to predictably improve performance
and sample efficiency on a wide range of downstream tasks. This paper instead
discusses an unpredictable phenomenon that we refer to as emergent abilities of
large language models. We consider an ability to be emergent if it is not
present in smaller models but is present in larger models. Thus, emergent
abilities cannot be predicted simply by extrapolating the performance of
smaller models. The existence of such emergence implies that additional scaling
could further expand the range of capabilities of language models.
- Abstract(参考訳): 言語モデルのスケールアップは、幅広い下流タスクのパフォーマンスとサンプル効率を予測可能改善することが示されている。
本稿では,大言語モデルの創発的能力と呼ぶ予測不能な現象について述べる。
より小さなモデルには存在しないが、より大きなモデルには存在しない場合、創発する能力を考える。
したがって、より小さなモデルの性能を外挿するだけでは、創発能力は予測できない。
このような出現の存在は、さらなるスケーリングが言語モデルの機能範囲をさらに拡大することを意味する。
関連論文リスト
- Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Diffusion Language Models Can Perform Many Tasks with Scaling and
Instruction-Finetuning [56.03057119008865]
拡散言語モデルを拡張することで、強力な言語学習者が効果的に学習できることが示される。
大規模データから知識を最初に取得することで,大規模に有能な拡散言語モデルを構築する。
実験により、拡散言語モデルのスケーリングは、下流言語タスクにおけるパフォーマンスを一貫して改善することが示された。
論文 参考訳(メタデータ) (2023-08-23T16:01:12Z) - Turning large language models into cognitive models [0.0]
大規模言語モデルが認知モデルに変換可能であることを示す。
これらのモデルは人間の行動の正確な表現を提供し、2つの意思決定領域において従来の認知モデルよりも優れている。
これらの結果は、大規模で事前学習されたモデルが一般的な認知モデルに適応できることを示唆している。
論文 参考訳(メタデータ) (2023-06-06T18:00:01Z) - Small Models are Valuable Plug-ins for Large Language Models [65.29370906766997]
GPT-3やGPT-4のような大きな言語モデル(LLM)は強力だが、その重み付けはしばしば一般には利用できない。
我々は,局所的に微調整された小型モデルでブラックボックスLLMを動作させることができるSuper In-Context Learning (SuperICL)を提案する。
論文 参考訳(メタデータ) (2023-05-15T17:59:01Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Rarely a problem? Language models exhibit inverse scaling in their
predictions following few-type quantifiers [0.6091702876917281]
言語モデルにおいて特に課題となる「おもちゃのような2人の子供」のような「2つの」型の量化器に焦点をあてる。
人間の2つの神経言語実験から、異なる大きさの22個の自己回帰トランスフォーマーモデルまで、960の英語文刺激を提示する。
論文 参考訳(メタデータ) (2022-12-16T20:01:22Z) - Lexical Generalization Improves with Larger Models and Longer Training [42.024050065980845]
本稿では,自然言語推論,パラフレーズ検出,読解理解における語彙重なりの活用について分析する。
より大型のモデルでは、語彙的な重複を採用することへの感受性がはるかに低いことが分かりました。
論文 参考訳(メタデータ) (2022-10-23T09:20:11Z) - Predicting on the Edge: Identifying Where a Larger Model Does Better [61.793778186198864]
小型モデルが最も不確実な例では,大規模モデルが最も改善されていることを示す。
小型モデルが不確実な場合,サンプルを大モデルにデフェクトするスイッチャーモデルにより,性能と資源利用の大幅な向上が達成できることを示す。
論文 参考訳(メタデータ) (2022-02-15T18:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。