論文の概要: A Theory of Emergent In-Context Learning as Implicit Structure Induction
- arxiv url: http://arxiv.org/abs/2303.07971v1
- Date: Tue, 14 Mar 2023 15:24:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 14:34:28.027797
- Title: A Theory of Emergent In-Context Learning as Implicit Structure Induction
- Title(参考訳): 暗黙的構造誘導としての創発的文脈学習の理論
- Authors: Michael Hahn, Navin Goyal
- Abstract要約: 大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
- 参考スコア(独自算出の注目度): 8.17811111226145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling large language models (LLMs) leads to an emergent capacity to learn
in-context from example demonstrations. Despite progress, theoretical
understanding of this phenomenon remains limited. We argue that in-context
learning relies on recombination of compositional operations found in natural
language data. We derive an information-theoretic bound showing how in-context
learning abilities arise from generic next-token prediction when the
pretraining distribution has sufficient amounts of compositional structure,
under linguistically motivated assumptions. A second bound provides a
theoretical justification for the empirical success of prompting LLMs to output
intermediate steps towards an answer. To validate theoretical predictions, we
introduce a controlled setup for inducing in-context learning; unlike previous
approaches, it accounts for the compositional nature of language. Trained
transformers can perform in-context learning for a range of tasks, in a manner
consistent with the theoretical results. Mirroring real-world LLMs in a
miniature setup, in-context learning emerges when scaling parameters and data,
and models perform better when prompted to output intermediate steps. Probing
shows that in-context learning is supported by a representation of the input's
compositional structure. Taken together, these results provide a step towards
theoretical understanding of emergent behavior in large language models.
- Abstract(参考訳): 大規模言語モデル(LLM)のスケーリングは、サンプルデモからコンテキスト内で学習する緊急能力をもたらす。
進歩にもかかわらず、この現象の理論的理解は限られている。
文脈内学習は、自然言語データに見られる合成操作の組換えに依存している。
事前学習分布が言語的動機づけのある仮定の下で十分な構成構造を持つ場合、文脈内学習能力がジェネリックな次の予測からどのように生じるかを示す情報理論的境界を導出する。
2つ目の境界は LLM に解への中間ステップを出力させる経験的成功の理論的正当化を与える。
理論的予測を検証するために,従来の手法とは異なり,言語の構成的性質を考慮し,文脈内学習を誘導するための制御された設定を導入する。
訓練されたトランスフォーマーは、理論的結果と一致した方法で、様々なタスクに対してコンテキスト内学習を行うことができる。
現実世界のLLMをミニチュアなセットアップでミラーリングすると、パラメータやデータをスケーリングするときにコンテキスト内学習が出現し、中間ステップを出力する時にモデルのパフォーマンスが向上する。
Probingは、入力の合成構造の表現によって、コンテキスト内学習が支持されることを示している。
これらの結果は、大規模言語モデルにおける創発的行動の理論的理解への一歩となる。
関連論文リスト
- Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Rethinking Relational Encoding in Language Model: Pre-Training for
General Sequences [23.806325599416134]
言語モデル事前トレーニングは、非自然言語ドメインにおけるシーケンス毎の関係のモデリングに失敗する。
LMPTと深い構造保存メトリック学習を組み合わせ、よりリッチな埋め込みを生成するフレームワークを開発しています。
我々のアプローチは下流タスクで顕著なパフォーマンス改善を提供します。
論文 参考訳(メタデータ) (2021-03-18T15:51:04Z) - Exploring Transitivity in Neural NLI Models through Veridicality [39.845425535943534]
推論関係の推移性に着目する。推論を体系的に描く基本的な性質である。
推移性をキャプチャするモデルは、基本的な推論パターンを構成し、新しい推論を引き出すことができる。
現在のNLIモデルは、推移性推論タスクで一貫してうまく機能しないことがわかります。
論文 参考訳(メタデータ) (2021-01-26T11:18:35Z) - Modelling Compositionality and Structure Dependence in Natural Language [0.12183405753834563]
言語学と集合論に基づいて、これらの概念の形式化がこの論文の前半で述べられている。
言語処理を行う認知システムは,特定の機能的制約を持つ必要がある。
単語埋め込み技術の進歩を利用して、関係学習のモデルがシミュレートされる。
論文 参考訳(メタデータ) (2020-11-22T17:28:50Z) - Towards Interpretable Natural Language Understanding with Explanations
as Latent Variables [146.83882632854485]
そこで本研究では,人間に注釈付き説明文の小さなセットだけを必要とする自然言語理解の枠組みを構築した。
我々のフレームワークは、ニューラルネットワークの基本的な推論過程をモデル化する潜在変数として、自然言語の説明を扱う。
論文 参考訳(メタデータ) (2020-10-24T02:05:56Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。