論文の概要: The Evolution of Statistical Induction Heads: In-Context Learning Markov
Chains
- arxiv url: http://arxiv.org/abs/2402.11004v1
- Date: Fri, 16 Feb 2024 18:28:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:02:34.557059
- Title: The Evolution of Statistical Induction Heads: In-Context Learning Markov
Chains
- Title(参考訳): 統計的誘導頭部の進化:マルコフ連鎖の文脈学習
- Authors: Benjamin L. Edelman, Ezra Edelman, Surbhi Goel, Eran Malach, Nikolaos
Tsilivis
- Abstract要約: In-context Learning (ICL) 機能がどのように出現するかを研究するために,Markov Chain シーケンスモデリングタスクを導入する。
このタスクで訓練されたトランスフォーマーは、正確な次の確率を計算するための統計的誘導ヘッドを形成する。
本研究では, 変圧器層間の相互作用から学習結果が得られたことを示し, より単純なユニグラム解の存在が最終ビッグラム解の形成を遅らせる可能性があることを示す。
- 参考スコア(独自算出の注目度): 28.41876902994335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have the ability to generate text that mimics patterns
in their inputs. We introduce a simple Markov Chain sequence modeling task in
order to study how this in-context learning (ICL) capability emerges. In our
setting, each example is sampled from a Markov chain drawn from a prior
distribution over Markov chains. Transformers trained on this task form
\emph{statistical induction heads} which compute accurate next-token
probabilities given the bigram statistics of the context. During the course of
training, models pass through multiple phases: after an initial stage in which
predictions are uniform, they learn to sub-optimally predict using in-context
single-token statistics (unigrams); then, there is a rapid phase transition to
the correct in-context bigram solution. We conduct an empirical and theoretical
investigation of this multi-phase process, showing how successful learning
results from the interaction between the transformer's layers, and uncovering
evidence that the presence of the simpler unigram solution may delay formation
of the final bigram solution. We examine how learning is affected by varying
the prior distribution over Markov chains, and consider the generalization of
our in-context learning of Markov chains (ICL-MC) task to $n$-grams for $n >
2$.
- Abstract(参考訳): 大きな言語モデルは、入力のパターンを模倣するテキストを生成することができる。
我々は,この文脈内学習(icl)能力がどのように出現するかを検討するために,単純なマルコフ連鎖シーケンスモデリングタスクを導入する。
この設定では、各サンプルはマルコフ連鎖上の事前分布から引き出されたマルコフ連鎖からサンプリングされる。
このタスクで訓練されたトランスフォーマーは \emph{statistical induction heads} という形式で、コンテキストのbigram統計量から精度の高い次の予測確率を計算する。
トレーニングの過程において、モデルは複数のフェーズを通り抜ける: 予測が均一な初期段階の後、彼らは、コンテキスト内シングルトーケン統計(ユニグラム)を使用して、サブ最適に予測することを学ぶ。
我々は, この多相過程の実証的理論的研究を行い, 変圧器層間の相互作用から学習結果が得られたこと, より単純なユニグラム溶液の存在が最終ビッグラム溶液の形成を遅らせる証拠を明らかにする。
我々は,マルコフ連鎖上の事前分布を変化させて学習がどう影響するかを調べ,マルコフ連鎖(icl-mc)タスクの文脈内学習をn>2$でn$-gramsに一般化することを検討する。
関連論文リスト
- Autoregressive Speech Synthesis without Vector Quantization [135.4776759536272]
テキストから音声合成(TTS)のための新しい連続値トークンに基づく言語モデリング手法であるMELLEを提案する。
MELLEはテキスト条件から直接連続メル-スペクトログラムフレームを自動回帰生成する。
論文 参考訳(メタデータ) (2024-07-11T14:36:53Z) - Ai-Sampler: Adversarial Learning of Markov kernels with involutive maps [28.229819253644862]
本稿では,マルコフ連鎖の遷移核のパラメータ化と訓練を行い,効率的なサンプリングと良好な混合を実現する方法を提案する。
この訓練方法は、チェーンの定常分布とデータの経験分布との総変動距離を最小化する。
論文 参考訳(メタデータ) (2024-06-04T17:00:14Z) - Asymptotic theory of in-context learning by linear attention [33.53106537972063]
インコンテキスト学習はトランスフォーマーの成功の土台である。
ICLを成功させるためには、必要なサンプルの複雑さ、事前学習タスクの多様性、コンテキストの長さに関する質問は未解決のままである。
論文 参考訳(メタデータ) (2024-05-20T03:24:24Z) - Toward a Theory of Tokenization in LLMs [26.516041872337887]
本稿では, 簡単なデータ生成プロセスにおいて, 変圧器の挙動を研究することによって, 理論的観点からトークン化について検討する。
変換器によって学習された最も単純なユニグラムモデルでさえ、$ktextth$-order Markovソースから引き出されたシーケンスの確率を最適にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-04-12T09:01:14Z) - From Self-Attention to Markov Models: Unveiling the Dynamics of
Generative Transformers [41.82477691012942]
本研究では,一連のプロンプトと関連する出力データから1層自己注意モデルを学習する。
まず、自己注意機構とマルコフモデルとの正確なマッピングを確立する。
我々は,自己注意による生成過程が崩壊し,トークンの限られた部分集合をサンプリングする,興味深い勝者とあらゆる現象を特徴付ける。
論文 参考訳(メタデータ) (2024-02-21T03:51:34Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - A Closer Look at Few-shot Classification Again [68.44963578735877]
トレーニングフェーズと適応フェーズで構成されている。
トレーニングアルゴリズムと適応アルゴリズムが完全に絡み合っていることを実証的に証明する。
各フェーズのメタアナリシスは、いくつかの興味深い洞察を示し、いくつかのショット分類の重要な側面をよりよく理解するのに役立ちます。
論文 参考訳(メタデータ) (2023-01-28T16:42:05Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Task-agnostic Continual Learning with Hybrid Probabilistic Models [75.01205414507243]
分類のための連続学習のためのハイブリッド生成識別手法であるHCLを提案する。
フローは、データの配布を学習し、分類を行い、タスクの変更を特定し、忘れることを避けるために使用される。
本研究では,スプリット-MNIST,スプリット-CIFAR,SVHN-MNISTなどの連続学習ベンチマークにおいて,HCLの強い性能を示す。
論文 参考訳(メタデータ) (2021-06-24T05:19:26Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。