Fugu-MT 論文翻訳(概要): Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming

論文の概要: Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming

arxiv url: http://arxiv.org/abs/2406.18501v1
Date: Wed, 26 Jun 2024 17:06:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-27 12:50:18.643077
Title: Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming
Title（参考訳）: 文脈内学習はグラディエント学習の類型か? : 構造プライミングにおける逆周波数効果からの証拠
Authors: Zhenghao Zhou, Robert Frank, R. Thomas McCoy,
Abstract要約: 大規模言語モデル(LLM)は、文脈内学習(ICL)の創発的能力を示している。我々は、ICLが勾配学習と機能的に等価であるかどうかを診断する新しい方法を提案する。
参考スコア（独自算出の注目度）: 6.408190458163885
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) have shown the emergent capability of in-context learning (ICL). One line of research has explained ICL as functionally performing gradient descent. In this paper, we introduce a new way of diagnosing whether ICL is functionally equivalent to gradient-based learning. Our approach is based on the inverse frequency effect (IFE) -- a phenomenon in which an error-driven learner is expected to show larger updates when trained on infrequent examples than frequent ones. The IFE has previously been studied in psycholinguistics because humans show this effect in the context of structural priming (the tendency for people to produce sentence structures they have encountered recently); the IFE has been used as evidence that human structural priming must involve error-driven learning mechanisms. In our experiments, we simulated structural priming within ICL and found that LLMs display the IFE, with the effect being stronger in larger models. We conclude that ICL is indeed a type of gradient-based learning, supporting the hypothesis that a gradient component is implicitly computed in the forward pass during ICL. Our results suggest that both humans and LLMs make use of gradient-based, error-driven processing mechanisms.
Abstract（参考訳）: 大規模言語モデル(LLM)は、文脈内学習(ICL)の創発的能力を示している。ある研究の行では、ICLは機能的に勾配降下を行うと説明されている。本稿では,ICLが勾配学習と機能的に等価であるかどうかを診断する新しい手法を提案する。提案手法は, 誤り駆動学習者が頻繁な事例よりも頻度の低い例で学習した場合に, より大きな更新を期待できる現象である逆周波数効果(IFE)に基づく。 IFEは以前に精神言語学で研究されてきたが、これは人間が構造的プライミング(最近遭遇した文構造を作る傾向)の文脈でこの効果を示すためである。実験では, ICL内の構造プライミングをシミュレーションした結果, LLMはIFEを呈し, より大きなモデルでは強い効果を示すことがわかった。 ICLは実際には勾配に基づく学習の一種であり、ICLの間、勾配成分が前方通過で暗黙的に計算されるという仮説を支持する。以上の結果から,人間とLLMの両方が勾配に基づく誤り駆動処理機構を利用していることが示唆された。

関連論文リスト

Generalization or Hallucination? Understanding Out-of-Context Reasoning in Transformers [76.42159902257677]
我々は、両方の行動は、アウト・オブ・コンテクスト推論(OCR)として知られる単一のメカニズムに由来すると論じる。 OCRは、関連する概念が因果関係であるかによって、一般化と幻覚の両方を駆動する。我々の研究は、OCR現象を理解するための理論的基盤を提供し、知識注入から望ましくない行動を分析し緩和するための新しいレンズを提供する。
論文参考訳（メタデータ） (2025-06-12T16:50:45Z)
From Parameters to Prompts: Understanding and Mitigating the Factuality Gap between Fine-Tuned LLMs [4.447729258258283]
未知の知識と未知の知識を微調整する際に生じる事実のギャップについて検討する。我々の結果は、微調整データとテストタイムプロンプトの相互作用に光を当てた。
論文参考訳（メタデータ） (2025-05-29T12:59:30Z)
Mechanism learning: Reverse causal inference in the presence of multiple unknown confounding through front-door causal bootstrapping [0.8901073744693314]
機械学習(ML)予測モデルの最大の制限は、変数間の因果関係ではなく、関連性を取り戻すことである。本稿では,前向きの因果ブートストラップを用いて観測データを分解する機構学習を提案する。提案手法は,完全合成,半合成,実世界のデータセットを用いて,信頼性,不偏性,因果的ML予測器を検出できることを実証する。
論文参考訳（メタデータ） (2024-10-26T03:34:55Z)
Can In-context Learning Really Generalize to Out-of-distribution Tasks? [36.11431280689549]
本研究は,訓練中に遭遇したことのないアウト・オブ・ディストリビューション(OOD)課題に対する,イン・コンテクスト・ラーニング(ICL)のメカニズムについて検討した。我々は、トランスフォーマーがICLを通してOODタスク機能を学ぶのに苦労していることを明らかにする。
論文参考訳（メタデータ） (2024-10-13T02:10:26Z)
Metacognitive Myopia in Large Language Models [0.0]
大規模言語モデル(LLM)は、文化的に固有のステレオタイプ、クラウドの道徳的判断、あるいは多数派の肯定的な評価を強化する潜在的に有害なバイアスを示す。認知・生態的枠組みとしてメタ認知ミオピアを提案する。我々の理論的枠組みは, メタ認知, 監視, 制御の2つの要素が欠如していることが, メタ認知性ミオピアの5つの症状を引き起こすことを示唆している。
論文参考訳（メタデータ） (2024-08-10T14:43:57Z)
Enhancing In-Context Learning Performance with just SVD-Based Weight Pruning: A Theoretical Perspective [21.361946399192195]
本稿では,SVDを用いた軽量刈り込みによりICL性能が向上するエキサイティングな現象を示す。 ICL推論の高速化のために,下流タスクのための単純,モデル圧縮,微分自由なアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-06T06:15:35Z)
Quantifying Emergence in Large Language Models [31.608080868988825]
LLMの出現を推定するための定量化ソリューションを提案する。分子動力学における創発性に着想を得て, ミクロ(トケン)レベルのエントロピー低減とミクロ(セマンティック)レベルのエントロピー低減を比較して, 出現の強さを定量化する。本手法は,テキスト内学習(ICL)と自然文の両方で,一貫した振る舞いを示す。
論文参考訳（メタデータ） (2024-05-21T09:12:20Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
In-context Learning and Gradient Descent Revisited [3.085927389171139]
トレーニングされていないモデルでさえ、ICLを提示していないにもかかわらず、同等のICL-GD類似度スコアが得られることを示す。次に、ICLとGDのモデル全体にわたる情報の流れにおける大きな相違について検討し、これをレイヤ因果性(Layer Causality)と呼ぶ。本稿では,階層因果関係を尊重する単純なGDに基づく最適化手法を提案する。
論文参考訳（メタデータ） (2023-11-13T21:42:38Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Do pretrained Transformers Learn In-Context by Gradient Descent? [21.23795112800977]
本稿では,自然データを用いた言語モデル(LLaMa-7B)における文脈内学習(ICL)の出現について検討する。 ICL と Gradient Descent (GD) は言語モデルの出力分布を異なる方法で変更する。これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究が必要であることを示唆している。
論文参考訳（メタデータ） (2023-10-12T17:32:09Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい知識を取得しながら学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデル(LLM)における連続的指導調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)
What and How does In-Context Learning Learn? Bayesian Model Averaging, Parameterization, and Generalization [111.55277952086155]
In-Context Learning (ICL) をいくつかのオープンな質問に答えることによって研究する。ニューラルネットワークパラメータを更新せずに、ICLはベイズモデル平均化アルゴリズムを暗黙的に実装している。事前学習されたモデルの誤差は近似誤差と一般化誤差の和で有界であることを示す。
論文参考訳（メタデータ） (2023-05-30T21:23:47Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)
Confounder Identification-free Causal Visual Feature Learning [84.28462256571822]
本稿では,創始者を特定する必要性を排除した,創始者同定自由因果視覚特徴学習(CICF)手法を提案する。 CICFは、フロントドア基準に基づいて異なるサンプル間の介入をモデル化し、インスタンスレベルの介入に対するグローバルスコープ干渉効果を近似する。我々は,CICFと一般的なメタラーニング戦略MAMLの関係を明らかにするとともに,MAMLが理論的観点から機能する理由を解釈する。
論文参考訳（メタデータ） (2021-11-26T10:57:47Z)
Systematic Evaluation of Causal Discovery in Visual Model Based Reinforcement Learning [76.00395335702572]
AIと因果関係の中心的な目標は、抽象表現と因果構造を共同で発見することである。因果誘導を研究するための既存の環境は、複雑なタスク固有の因果グラフを持つため、この目的には適していない。本研究の目的は,高次変数の学習表現と因果構造の研究を促進することである。
論文参考訳（メタデータ） (2021-07-02T05:44:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。