論文の概要: Do pretrained Transformers Really Learn In-context by Gradient Descent?
- arxiv url: http://arxiv.org/abs/2310.08540v2
- Date: Fri, 24 Nov 2023 20:24:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 14:03:43.008803
- Title: Do pretrained Transformers Really Learn In-context by Gradient Descent?
- Title(参考訳): 事前学習されたトランスフォーマーは、勾配降下によってコンテキスト内学習を実際に行うのか?
- Authors: Lingfeng Shen, Aayush Mishra, Daniel Khashabi
- Abstract要約: In-Context Learningは暗黙的にグラディエント・Descent(GD)と等価か?
近年のいくつかの研究は、GDの力学と大規模言語モデルにおけるICLの創発的挙動の類似を描いている。
これらの研究は、言語モデルが訓練される現実的な自然言語設定からかけ離れている。
これらの結果は、ICLとGDの等価性はオープン仮説であり、微妙な考察を必要とし、さらなる研究を求めることを示唆している。
- 参考スコア(独自算出の注目度): 23.869328709363035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is In-Context Learning (ICL) implicitly equivalent to Gradient Descent (GD)?
Several recent works draw analogies between the dynamics of GD and the emergent
behavior of ICL in large language models. However, these works make assumptions
far from the realistic natural language setting in which language models are
trained. Therefore, such discrepancies between theory and practice necessitate
further investigation to validate their applicability.
We start by highlighting the assumptions in prior works that construct
Transformer weights to simulate gradient descent. Their experiments with
training Transformers on ICL objective, inconsistencies in the order
sensitivity of ICL and GD, sparsity of the constructed weights, and sensitivity
to parameter changes are some examples of mismatch from the real-world setting.
Furthermore, we probe and compare the ICL vs. GD hypothesis in a natural
setting. We conduct comprehensive empirical analyses on language models
pretrained on natural data (LLaMa-7B). Our comparisons on various performance
metrics highlight the inconsistent behavior of ICL and GD as a function of
various factors such as datasets, models, and the number of demonstrations. We
observe that ICL and GD modify the output distribution of language models
differently. These results indicate that the equivalence between ICL and GD is
an open hypothesis, requires nuanced considerations, and calls for further
studies.
- Abstract(参考訳): In-Context Learning (ICL) はグラディエント・Descent (GD) と暗黙的に等価か?
最近のいくつかの著作は、大きな言語モデルにおけるgdのダイナミクスと icl の創発的挙動の類似性を示している。
しかし、これらの作品は、言語モデルを訓練する現実的な自然言語設定から遠く離れている。
したがって、理論と実践の相違は、それらの適用性を検証するためにさらなる調査が必要である。
まず、勾配降下をシミュレートするTransformer重みを構成する事前の作業における仮定を強調します。
icl目的のトレーニングトランスフォーマ実験、iclとgdの順序感度の不一致、構築された重みのスパース性、パラメータ変化に対する感度など、現実世界の設定とミスマッチの例である。
さらに、自然条件下でICL対GD仮説を探索し、比較する。
本研究では,自然データ(LLaMa-7B)に基づく言語モデルに関する包括的実験分析を行った。
各種パフォーマンス指標の比較では,データセットやモデル,実演数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。
ICLとGDは言語モデルの出力分布を異なる方法で変更する。
これらの結果は、ICLとGDの等価性はオープン仮説であり、微妙な考察を必要とし、さらなる研究を求めることを示唆している。
関連論文リスト
- The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - Exploring the Relationship between In-Context Learning and Instruction
Tuning [18.186126518966017]
In-Context Learning (ICL) と Instruction Tuning (IT) は、下流アプリケーションにLarge Language Modelsを採用する2つの主要なパラダイムである。
ICLでは、推論時に一連のデモが提供されるが、LLMのパラメータは更新されない。
ITでは、LLMのパラメータをトレーニング時にチューニングするために一連のデモが使用されるが、推論時にデモは使用されない。
論文 参考訳(メタデータ) (2023-11-17T07:40:46Z) - In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T21:42:38Z) - Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。
これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z) - Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文 参考訳(メタデータ) (2023-07-28T09:03:19Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Sources of Hallucination by Large Language Models on Inference Tasks [16.644096408742325]
大規模言語モデル (LLM) は自然言語推論 (NLI) が可能なと主張している。
本研究は, 制御実験を用いて行動調査を行う複数のLLMファミリーに関する一連の行動学的研究について述べる。
論文 参考訳(メタデータ) (2023-05-23T22:24:44Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。