Fugu-MT 論文翻訳(概要): Revisiting the Hypothesis: Do pretrained Transformers Learn In-Context by Gradient Descent?

論文の概要: Revisiting the Hypothesis: Do pretrained Transformers Learn In-Context by Gradient Descent?

arxiv url: http://arxiv.org/abs/2310.08540v4
Date: Thu, 29 Feb 2024 18:47:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 18:33:13.600958
Title: Revisiting the Hypothesis: Do pretrained Transformers Learn In-Context by Gradient Descent?
Title（参考訳）: 事前学習されたトランスフォーマーは勾配降下によって文脈内学習をするか?
Authors: Lingfeng Shen, Aayush Mishra, Daniel Khashabi
Abstract要約: 言語モデルにおける文脈学習は、ほとんど理解されていない重要な現象である。この接続は、実際にトレーニング済みのモデルで保留されているのでしょうか? 我々は、自然データに基づいて事前訓練された言語モデルに関する総合的な経験分析を行う。
参考スコア（独自算出の注目度）: 23.869328709363035
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of In-Context Learning (ICL) in LLMs remains a significant phenomenon with little understanding. To explain ICL, recent studies try to theoretically connect it to Gradient Descent (GD). We ask, does this connection hold up in actual pre-trained models? We highlight the limiting assumptions in prior works that make their context considerably different from the practical context in which language models are trained. For example, the theoretical hand-constructed weights used in these studies have properties that don't match those of real LLMs. Furthermore, their experimental verification uses ICL objective (training models explicitly for ICL), which differs from the emergent ICL in the wild. We also look for evidence in real models. We observe that ICL and GD have different sensitivity to the order in which they observe demonstrations. Finally, we probe and compare the ICL vs. GD hypothesis in a natural setting. We conduct comprehensive empirical analyses on language models pre-trained on natural data (LLaMa-7B). Our comparisons of three performance metrics highlight the inconsistent behavior of ICL and GD as a function of various factors such as datasets, models, and the number of demonstrations. We observe that ICL and GD modify the output distribution of language models differently. These results indicate that the equivalence between ICL and GD remains an open hypothesis and calls for further studies.
Abstract（参考訳）: LLMにおける文脈学習(ICL)の出現は、ほとんど理解されていない重要な現象である。 iclを説明するために、近年の研究では勾配降下 (gd) と理論的に結びつけようとしている。この接続は、実際にトレーニング済みのモデルで保たれるのか? 我々は,言語モデルを訓練する実践的文脈と,その文脈をかなり異なるものにする先行作業における制約仮定を強調した。例えば、これらの研究で使われる理論的な手作りの重みは実際の llm と一致しない性質を持つ。さらに、実験的な検証では、野生での創発的なiclと異なるicl目的(iclを明示的に訓練するモデル)を使用している。実際のモデルの証拠も探しています。 iclとgdは,実演を観察する順序に対する感度が異なることが観察された。最後に,自然環境下でのicl仮説とgd仮説を比較した。自然データ(llama-7b)に基づいて事前学習した言語モデルについて,包括的実証分析を行う。 3つのパフォーマンス指標の比較では,データセットやモデル,実演数など,さまざまな要因の関数として,ICLとGDの不整合挙動に着目した。 ICLとGDは言語モデルの出力分布を異なる方法で変更する。これらの結果は、ICLとGDの同値性は未解決の仮説であり、さらなる研究を求めていることを示している。

関連論文リスト

Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文参考訳（メタデータ） (2025-05-27T16:24:02Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
A Comparative Study of Learning Paradigms in Large Language Models via Intrinsic Dimension [16.671316494925346]
大規模言語モデル(LLM)の隠れ表現に対する教師付き微調整と文脈内学習の効果について検討する。我々はまず,LLM表現のIDがSFT中にどのように進化するか,ICLにおける実演数によってどのように変化するかを検討する。次に、SFTとICLによって誘導されるIDを比較し、ICLはSFTと比較して常に高いIDを誘導する。
論文参考訳（メタデータ） (2024-12-09T06:37:35Z)
Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
Probing Causality Manipulation of Large Language Models [12.46951388060595]
大規模言語モデル(LLM)は、因果関係の問題を含む自然言語処理に様々な能力を示している。本稿では、モデルに異なるショートカットを提供し、行動を観察し、因果操作を階層的に探索する新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-08-26T16:00:41Z)
Is In-Context Learning a Type of Gradient-Based Learning? Evidence from the Inverse Frequency Effect in Structural Priming [6.408190458163885]
大規模言語モデル(LLM)は、文脈内学習(ICL)の創発的能力を示している。我々は、ICLが勾配学習と機能的に等価であるかどうかを診断する新しい方法を提案する。
論文参考訳（メタデータ） (2024-06-26T17:06:41Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。 LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:07:32Z)
Exploring the Relationship between In-Context Learning and Instruction Tuning [18.186126518966017]
In-Context Learning (ICL) と Instruction Tuning (IT) は、下流アプリケーションにLarge Language Modelsを採用する2つの主要なパラダイムである。 ICLでは、推論時に一連のデモが提供されるが、LLMのパラメータは更新されない。 ITでは、LLMのパラメータをトレーニング時にチューニングするために一連のデモが使用されるが、推論時にデモは使用されない。
論文参考訳（メタデータ） (2023-11-17T07:40:46Z)
Dynamic Demonstrations Controller for In-Context Learning [51.3439660534631]
In-Context Learning(ICL)は、自然言語処理(NLP)のための新しいパラダイムであり、大規模な言語モデルが少数の実演とテストインスタンスを入力として観察する。これまでの研究では、ICLはデモの選択と順序に敏感であることが判明している。デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文参考訳（メタデータ） (2023-09-30T14:04:22Z)
Investigating the Learning Behaviour of In-context Learning: A Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文参考訳（メタデータ） (2023-07-28T09:03:19Z)
Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。 ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文参考訳（メタデータ） (2023-05-22T06:45:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。