論文の概要: Are Emergent Abilities in Large Language Models just In-Context
Learning?
- arxiv url: http://arxiv.org/abs/2309.01809v1
- Date: Mon, 4 Sep 2023 20:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 17:12:02.577455
- Title: Are Emergent Abilities in Large Language Models just In-Context
Learning?
- Title(参考訳): 大規模言語モデルの創発的能力は、文脈内学習にのみ存在するか?
- Authors: Sheng Lu and Irina Bigoulaeva and Rachneet Sachdeva and Harish Tayyar
Madabushi and Iryna Gurevych
- Abstract要約: 我々は、600万から1750億のパラメータを含む18の大規模言語モデルの厳密なテストを行う。
創発的能力は、主に文脈内学習に比定できるという説得力のある証拠を提供する。
推論能力の出現の証拠は見つからないので、観察能力を駆動するメカニズムについて貴重な洞察を与えることができる。
- 参考スコア(独自算出の注目度): 49.953278344511695
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models have exhibited emergent abilities, demonstrating
exceptional performance across diverse tasks for which they were not explicitly
trained, including those that require complex reasoning abilities. The
emergence of such abilities carries profound implications for the future
direction of research in NLP, especially as the deployment of such models
becomes more prevalent. However, one key challenge is that the evaluation of
these abilities is often confounded by competencies that arise in models
through alternative prompting techniques, such as in-context learning and
instruction following, which also emerge as the models are scaled up. In this
study, we provide the first comprehensive examination of these emergent
abilities while accounting for various potentially biasing factors that can
influence the evaluation of models. We conduct rigorous tests on a set of 18
models, encompassing a parameter range from 60 million to 175 billion
parameters, across a comprehensive set of 22 tasks. Through an extensive series
of over 1,000 experiments, we provide compelling evidence that emergent
abilities can primarily be ascribed to in-context learning. We find no evidence
for the emergence of reasoning abilities, thus providing valuable insights into
the underlying mechanisms driving the observed abilities and thus alleviating
safety concerns regarding their use.
- Abstract(参考訳): 大規模言語モデルは創発的な能力を示しており、複雑な推論能力を必要とするものを含め、明示的に訓練されていない様々なタスクで例外的なパフォーマンスを示している。
このような能力の出現は、特にそのようなモデルの展開がより広まるにつれて、NLPにおける研究の今後の方向性に大きな影響を与える。
しかし、一つの重要な課題は、これらの能力の評価は、モデルがスケールアップされるにつれて現れる、コンテキスト内学習や命令追従といった代替的なプロンプト技術によってモデルで生じる能力によって、しばしば合致していることである。
本研究では,これらの創発的能力の包括的検証を行い,モデル評価に影響を与える様々な要因について考察する。
我々は18のモデルの集合に対して厳密なテストを行い、パラメータは600万から1750億のパラメータで、22のタスクの集合を包含する。
1000以上の実験を通じて、創発的能力が主にコンテキスト内学習に寄与することを示す説得力のある証拠を提供する。
推論能力の出現の証拠は見つからないため、観察能力を駆動するメカニズムについて貴重な洞察を与え、それらの使用に関する安全性の懸念を軽減することができる。
関連論文リスト
- Unified View of Grokking, Double Descent and Emergent Abilities: A
Perspective from Circuits Competition [83.13280812128411]
近年の研究では、グラッキング、二重降下、大規模言語モデルにおける創発的能力など、ディープラーニングにおける興味深い現象が明らかにされている。
本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的な見方を提供する包括的枠組みを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:14:36Z) - Reasoning or Reciting? Exploring the Capabilities and Limitations of
Language Models Through Counterfactual Tasks [54.939309284692406]
最近の言語モデルは、幅広いタスクで印象的なパフォーマンスを示している。
これらのスキルは一般的で、移行可能か、あるいは事前トレーニング中に見られる特定のタスクに特化していますか?
本稿では,標準タスクの既定前提から逸脱する「数値的」タスク変種に基づく評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-05T17:50:42Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Define, Evaluate, and Improve Task-Oriented Cognitive Capabilities for
Instruction Generation Models [5.975913042883176]
最近の研究は、人間のために設計された心理学的テストを通して言語モデルの認知能力を研究する。
我々は、言語モデルがタスクを実行するために利用する人間のような認知能力であるタスク指向認知能力を定式化する。
論文 参考訳(メタデータ) (2022-12-21T04:43:19Z) - Rethinking the Role of Scale for In-Context Learning: An
Interpretability-based Case Study at 66 Billion Scale [60.336655143884904]
本研究では,大規模言語モデルによるタスクの文脈内学習性能が,その基盤となるコンポーネントに均一に分散していないという仮説を考察する。
タスク間のインコンテキスト学習とインコンテキストサンプルの数に対して,アテンションヘッドのセット(重要でない)にかなりの重複がみられた。
論文 参考訳(メタデータ) (2022-12-18T14:36:07Z) - Measuring Progress on Scalable Oversight for Large Language Models [19.705153174673576]
我々は、人間専門家が成功するが、人間や現在の汎用AIシステムが失敗するタスクを選択することに焦点を当てた実験的な設計を提案する。
チャットを通じて信頼できない大言語モデルダイアログアシスタントと対話する人間の参加者は、モデル単独と自明なパフォーマンスの両方を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2022-11-04T17:03:49Z) - Plex: Towards Reliability using Pretrained Large Model Extensions [69.13326436826227]
我々は,視覚と言語モダリティのための事前訓練された大規模モデル拡張であるViT-PlexとT5-Plexを開発した。
Plexは信頼性タスク間の最先端性を大幅に改善し、従来のプロトコルを単純化する。
最大1Bパラメータまでのモデルサイズに対するスケーリング効果と,最大4B例までのデータセットサイズを事前トレーニングした。
論文 参考訳(メタデータ) (2022-07-15T11:39:37Z) - Predictability and Surprise in Large Generative Models [8.055204456718576]
大規模プレトレーニングは、有能で汎用的な生成モデルを作成するための技術として登場した。
本稿では,そのようなモデルの直観的特性を強調し,この特性の政策的含意について論じる。
論文 参考訳(メタデータ) (2022-02-15T23:21:23Z) - Plausible Counterfactuals: Auditing Deep Learning Classifiers with
Realistic Adversarial Examples [84.8370546614042]
ディープラーニングモデルのブラックボックスの性質は、彼らがデータから何を学ぶかについて、未回答の疑問を提起している。
GAN(Generative Adversarial Network)とマルチオブジェクトは、監査されたモデルに妥当な攻撃を与えるために使用される。
その実用性は人間の顔の分類タスクの中で示され、提案されたフレームワークの潜在的可能性を明らかにしている。
論文 参考訳(メタデータ) (2020-03-25T11:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。