論文の概要: Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming
- arxiv url: http://arxiv.org/abs/2406.18501v1
- Date: Wed, 26 Jun 2024 17:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 12:50:18.643077
- Title: Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming
- Title(参考訳): 文脈内学習はグラディエント学習の類型か? : 構造プライミングにおける逆周波数効果からの証拠
- Authors: Zhenghao Zhou, Robert Frank, R. Thomas McCoy,
- Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)の創発的能力を示している。
我々は、ICLが勾配学習と機能的に等価であるかどうかを診断する新しい方法を提案する。
- 参考スコア(独自算出の注目度): 6.408190458163885
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown the emergent capability of in-context learning (ICL). One line of research has explained ICL as functionally performing gradient descent. In this paper, we introduce a new way of diagnosing whether ICL is functionally equivalent to gradient-based learning. Our approach is based on the inverse frequency effect (IFE) -- a phenomenon in which an error-driven learner is expected to show larger updates when trained on infrequent examples than frequent ones. The IFE has previously been studied in psycholinguistics because humans show this effect in the context of structural priming (the tendency for people to produce sentence structures they have encountered recently); the IFE has been used as evidence that human structural priming must involve error-driven learning mechanisms. In our experiments, we simulated structural priming within ICL and found that LLMs display the IFE, with the effect being stronger in larger models. We conclude that ICL is indeed a type of gradient-based learning, supporting the hypothesis that a gradient component is implicitly computed in the forward pass during ICL. Our results suggest that both humans and LLMs make use of gradient-based, error-driven processing mechanisms.
- Abstract(参考訳): 大規模言語モデル(LLM)は、文脈内学習(ICL)の創発的能力を示している。
ある研究の行では、ICLは機能的に勾配降下を行うと説明されている。
本稿では,ICLが勾配学習と機能的に等価であるかどうかを診断する新しい手法を提案する。
提案手法は, 誤り駆動学習者が頻繁な事例よりも頻度の低い例で学習した場合に, より大きな更新を期待できる現象である逆周波数効果(IFE)に基づく。
IFEは以前に精神言語学で研究されてきたが、これは人間が構造的プライミング(最近遭遇した文構造を作る傾向)の文脈でこの効果を示すためである。
実験では, ICL内の構造プライミングをシミュレーションした結果, LLMはIFEを呈し, より大きなモデルでは強い効果を示すことがわかった。
ICLは実際には勾配に基づく学習の一種であり、ICLの間、勾配成分が前方通過で暗黙的に計算されるという仮説を支持する。
以上の結果から,人間とLLMの両方が勾配に基づく誤り駆動処理機構を利用していることが示唆された。
関連論文リスト
- Can In-context Learning Really Generalize to Out-of-distribution Tasks? [36.11431280689549]
本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。
我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
論文 参考訳(メタデータ) (2024-10-13T02:10:26Z) - Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective [21.361946399192195]
本稿では,SVDを用いた軽量刈り込みによりICL性能が向上するエキサイティングな現象を示す。
ICL推論の高速化のために,下流タスクのための単純,モデル圧縮,微分自由なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T06:15:35Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。
次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。
本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-11-13T21:42:38Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。
ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。
これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文 参考訳(メタデータ) (2023-10-12T17:32:09Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - What and How does In-Context Learning Learn? Bayesian Model Averaging,
Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。
ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。
事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文 参考訳(メタデータ) (2023-05-30T21:23:47Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - Systematic Evaluation of Causal Discovery in Visual Model Based
Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。
因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。
本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文 参考訳(メタデータ) (2021-07-02T05:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。