論文の概要: Dual Operating Modes of In-Context Learning
- arxiv url: http://arxiv.org/abs/2402.18819v2
- Date: Fri, 2 Aug 2024 08:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 18:23:26.697738
- Title: Dual Operating Modes of In-Context Learning
- Title(参考訳): インコンテキスト学習におけるデュアルオペレーティングモード
- Authors: Ziqian Lin, Kangwook Lee,
- Abstract要約: In-context Learning (ICL)は、タスク学習とタスク検索という2つの操作モードを示す。
最近の理論的研究は、ICLを解析するための様々な数学的モデルについて研究している。
本稿では,ICLの二重動作モードを同時に説明できる確率モデルを提案する。
- 参考スコア(独自算出の注目度): 8.664657381613695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In-context learning (ICL) exhibits dual operating modes: task learning, i.e., acquiring a new skill from in-context samples, and task retrieval, i.e., locating and activating a relevant pretrained skill. Recent theoretical work investigates various mathematical models to analyze ICL, but existing models explain only one operating mode at a time. We introduce a probabilistic model, with which one can explain the dual operating modes of ICL simultaneously. Focusing on in-context learning of linear functions, we extend existing models for pretraining data by introducing multiple task groups and task-dependent input distributions. We then analyze the behavior of the optimally pretrained model under the squared loss, i.e., the MMSE estimator of the label given in-context examples. Regarding pretraining task distribution as prior and in-context examples as the observation, we derive the closed-form expression of the task posterior distribution. With the closed-form expression, we obtain a quantitative understanding of the two operating modes of ICL. Furthermore, we shed light on an unexplained phenomenon observed in practice: under certain settings, the ICL risk initially increases and then decreases with more in-context examples. Our model offers a plausible explanation for this "early ascent" phenomenon: a limited number of in-context samples may lead to the retrieval of an incorrect skill, thereby increasing the risk, which will eventually diminish as task learning takes effect with more in-context samples. We also theoretically analyze ICL with biased labels, e.g., zero-shot ICL, where in-context examples are assigned random labels. Lastly, we validate our findings and predictions via experiments involving Transformers and large language models.
- Abstract(参考訳): In-context Learning (ICL)は、タスク学習(英語版)、すなわち、インコンテキストサンプルから新しいスキルを取得する、タスク検索(英語版)、すなわち、関連する事前訓練されたスキルの位置と活性化の2つの動作モードを示す。
最近の理論的研究では、ICLを解析するための様々な数学的モデルが検討されているが、既存のモデルは一度に1つの動作モードしか説明できない。
本稿では,ICLの二重動作モードを同時に説明できる確率モデルを提案する。
線形関数の文脈内学習に着目し,複数のタスク群とタスク依存入力分布を導入することで,事前学習のための既存のモデルを拡張する。
次に,2乗損失下での最適事前学習モデルの挙動,すなわちラベルのMMSE推定器の分析を行った。
先行学習タスクの分布を観察例として, タスク後部分布のクローズドフォーム表現を導出する。
クローズドフォーム表現では、ICLの2つの動作モードの定量的理解が得られる。
さらに、ある条件下では、ICLのリスクは最初増加し、その後、より文脈内での例で減少する。
我々のモデルは、この「初期段階」現象について、妥当な説明を提供する: 限られた数のインコンテキストサンプルが不正なスキルの検索に繋がる可能性があり、それによってリスクが増大し、より多くのインコンテキストサンプルでタスク学習が効果を発揮すると、最終的には減少する。
また,テキスト内サンプルがランダムラベルに割り当てられるゼロショットICLなど,バイアス付きラベルを用いてICLを理論的に解析する。
最後に,トランスフォーマーと大規模言語モデルを用いた実験により,この結果と予測を検証した。
関連論文リスト
- Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - Can In-context Learning Really Generalize to Out-of-distribution Tasks? [36.11431280689549]
本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T02:10:26Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Implicit In-context Learning [37.0562059811099]
In-context Learning (ICL)は、大規模な言語モデルに対して、テストクエリの前にいくつかの実演例をプレフィックスすることで、推論中に目に見えないタスクに適応する権限を与える。
Inlicit In-context Learning (I2CL)は、従来のICLにまつわる課題に、アクティベーション空間内の実演例を吸収することで対処する革新的なパラダイムである。
I2CLは、ゼロショットコストで数ショットのパフォーマンスを達成し、デモ例のバリエーションに対して堅牢性を示す。
論文 参考訳(メタデータ) (2024-05-23T14:57:52Z) - The mechanistic basis of data dependence and abrupt learning in an
in-context classification task [0.3626013617212666]
本研究では,言語固有の特定の分布特性が,2種類の学習のトレードオフや同時出現を制御していることを示す。
インコンテキスト学習は、誘導ヘッドの突然の出現によって駆動され、その後、インウェイト学習と競合する。
注意に基づくネットワークの急激な遷移は、ICLを実現するのに必要な多層演算の特定の連鎖によって生じると提案する。
論文 参考訳(メタデータ) (2023-12-03T20:53:41Z) - How Many Pretraining Tasks Are Needed for In-Context Learning of Linear Regression? [92.90857135952231]
様々なタスクで事前訓練されたトランスフォーマーは、顕著なインコンテキスト学習(ICL)能力を示す。
線形回帰のための線形パラメータ化単一層線形アテンションモデルの事前学習を行う。
論文 参考訳(メタデータ) (2023-10-12T15:01:43Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning [53.52699766206808]
In-Context Learning (RetICL) のための検索式を提案する。
RetICLは数学用語の問題解決と科学的質問応答のタスクに基づいて評価し,一貫した性能や一致,学習可能なベースラインを示す。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。