論文の概要: The mechanistic basis of data dependence and abrupt learning in an
in-context classification task
- arxiv url: http://arxiv.org/abs/2312.03002v1
- Date: Sun, 3 Dec 2023 20:53:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 17:37:48.630982
- Title: The mechanistic basis of data dependence and abrupt learning in an
in-context classification task
- Title(参考訳): 文脈内分類課題におけるデータ依存と突然学習の力学的基礎
- Authors: Gautam Reddy
- Abstract要約: 本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
- 参考スコア(独自算出の注目度): 0.3626013617212666
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer models exhibit in-context learning: the ability to accurately
predict the response to a novel query based on illustrative examples in the
input sequence. In-context learning contrasts with traditional in-weights
learning of query-output relationships. What aspects of the training data
distribution and architecture favor in-context vs in-weights learning? Recent
work has shown that specific distributional properties inherent in language,
such as burstiness, large dictionaries and skewed rank-frequency distributions,
control the trade-off or simultaneous appearance of these two forms of
learning. We first show that these results are recapitulated in a minimal
attention-only network trained on a simplified dataset. In-context learning
(ICL) is driven by the abrupt emergence of an induction head, which
subsequently competes with in-weights learning. By identifying progress
measures that precede in-context learning and targeted experiments, we
construct a two-parameter model of an induction head which emulates the full
data distributional dependencies displayed by the attention-based network. A
phenomenological model of induction head formation traces its abrupt emergence
to the sequential learning of three nested logits enabled by an intrinsic
curriculum. We propose that the sharp transitions in attention-based networks
arise due to a specific chain of multi-layer operations necessary to achieve
ICL, which is implemented by nested nonlinearities sequentially learned during
training.
- Abstract(参考訳): トランスフォーマーモデルは、入力シーケンスのイラストレーション例に基づいて、新しいクエリに対する応答を正確に予測する能力である。
インコンテキスト学習は、クエリー出力関係の伝統的なインウェイト学習とは対照的である。
トレーニングデータ配布とアーキテクチャのどの側面がコンテキスト内と重み内学習に有利か?
近年の研究では、バースト性、大きな辞書、歪んだランク周波数分布などの言語固有の分布特性が、これらの2種類の学習のトレードオフや同時出現を制御することが示されている。
まず,これらの結果は,簡易データセット上でトレーニングされた最小限の注意のみのネットワークで再認識されることを示す。
インコンテキスト学習(icl)は、インウェイト学習と競合する誘導ヘッドの突然の出現によって駆動される。
文脈内学習と対象実験に先行する進捗度を同定することにより,注意に基づくネットワークで表示された全データ分布依存性をエミュレートする誘導ヘッドの2パラメータモデルを構築する。
誘導頭部形成の現象論的モデルによって、その突然の出現は、本質的カリキュラムによって実現される3つのネストロジットの逐次学習に遡る。
注意に基づくネットワークの急激な遷移は、トレーニング中に連続的に学習されたネスト非線形性によって実装されるICLを実現するために必要な多層演算の特定の連鎖によって生じる。
関連論文リスト
- Dual Operating Modes of In-Context Learning [10.236144875390924]
In-context Learning (ICL)は、タスク学習とタスク検索という2つの操作モードを示す。
最近の理論的研究は、ICLを解析するための様々な数学的モデルについて研究している。
本稿では,ICLの二重動作モードを同時に説明できる確率モデルを提案する。
論文 参考訳(メタデータ) (2024-02-29T03:06:10Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - A Theory of Emergent In-Context Learning as Implicit Structure Induction [8.17811111226145]
大きな言語モデルをスケールすると、実例からコンテキスト内で学習する能力が創発的になる。
文脈内学習は、自然言語データにみられる合成操作の組換えに依拠していると論じる。
入力の合成構造の表現によって、文脈内学習がどうサポートされるかを示す。
論文 参考訳(メタデータ) (2023-03-14T15:24:05Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Local and non-local dependency learning and emergence of rule-like
representations in speech data by Deep Convolutional Generative Adversarial
Networks [0.0]
本稿では、音声データにおける局所的および非局所的依存関係に対するGANのトレーニングは、ディープニューラルネットワークが連続データをどのように識別するかについての洞察を与える。
論文 参考訳(メタデータ) (2020-09-27T00:02:34Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。