論文の概要: Learning without training: The implicit dynamics of in-context learning
- arxiv url: http://arxiv.org/abs/2507.16003v1
- Date: Mon, 21 Jul 2025 18:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.851861
- Title: Learning without training: The implicit dynamics of in-context learning
- Title(参考訳): トレーニングなし学習 : 文脈内学習の暗黙的ダイナミクス
- Authors: Benoit Dherin, Michael Munn, Hanna Mazzawi, Michael Wunder, Javier Gonzalvo,
- Abstract要約: LLMは、これらのパターンがプロンプトの例の形で提示されるとき、追加の重み付けをせずに新しいパターンを学ぶことができる。
重ね合わせによる自己保持層のコンテキストは、変換ブロックがコンテキストに応じてレイヤの重みを暗黙的に変更できることを示す。
- 参考スコア(独自算出の注目度): 5.714728133687619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most striking features of Large Language Models (LLM) is their ability to learn in context. Namely at inference time an LLM is able to learn new patterns without any additional weight update when these patterns are presented in the form of examples in the prompt, even if these patterns were not seen during training. The mechanisms through which this can happen are still largely unknown. In this work, we show that the stacking of a self-attention layer with an MLP, allows the transformer block to implicitly modify the weights of the MLP layer according to the context. We argue through theory and experimentation that this simple mechanism may be the reason why LLMs can learn in context and not only during training. Specifically, we show under mild simplifying assumptions how a transformer block implicitly transforms a context into a low-rank weight-update of the MLP layer.
- Abstract(参考訳): LLM(Large Language Models)の最も印象的な特徴の1つは、文脈で学習する能力である。
すなわち、推論時にLLMは、トレーニング中にこれらのパターンが見られなくても、プロンプトの例でこれらのパターンが提示されるときに、追加の重み付けをせずに新しいパターンを学習することができる。
この現象が起こるメカニズムは、いまだに不明である。
本研究では,自己保持層をMLPで積み重ねることで,コンテクストに応じてトランスフォーマーブロックがMDP層の重みを暗黙的に修正できることを示す。
理論と実験を通じて、この単純なメカニズムが、LLMが訓練中だけでなく、文脈で学習できる理由かもしれないと論じる。
具体的には、変換器ブロックがコンテキストを暗黙的にMDP層の低ランクの重み更新に変換するという、やや単純化された仮定を示す。
関連論文リスト
- Factual Self-Awareness in Language Models: Representation, Robustness, and Scaling [56.26834106704781]
大規模言語モデル(LLM)のユビキタス展開における主要な関心事の一つは、生成されたコンテンツの事実的誤りである。
我々は, LLMの内部コンパスの存在を裏付ける証拠を提供し, 生成時の事実的リコールの正しさを規定する。
モデルサイズにわたる実験のスケールとトレーニングのダイナミクスは、トレーニング中に自己認識が急速に出現し、中間層でピークとなることを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-27T16:24:02Z) - Teaching Models to Improve on Tape [30.330699770714165]
大きな言語モデル(LLM)は、特定の制約の下でコンテンツを生成するよう促されたときにしばしば苦労する。
最近の研究によると、LLMはそのような「修正的フィードバック」の恩恵を受けることができる。
本稿では,そのような報酬をモデルに教えるためのRLフレームワークを紹介し,その制約を満たす能力に応じてモデルに報酬を与える。
論文 参考訳(メタデータ) (2024-11-03T08:49:55Z) - Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models [7.115323364355489]
インコンテキスト学習(In-context learning)は、入力プロンプトのいくつかの例に基づいて適応する能力であり、大きな言語モデル(LLM)のユビキタスな特徴である。
最初に、Llamaが$70$Bで、コンテキスト内で単純なRL問題を解くことができることを示す。
次に、スパースオートエンコーダ(SAE)を用いてLlamaの残差ストリームを分析し、時間差(TD)誤差によく一致する表現を求める。
論文 参考訳(メタデータ) (2024-10-02T06:51:12Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Distilling Rule-based Knowledge into Large Language Models [90.7765003679106]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - Explanation-aware Soft Ensemble Empowers Large Language Model In-context
Learning [50.00090601424348]
大規模言語モデル(LLM)は、様々な自然言語理解タスクにおいて顕著な能力を示している。
我々は,LLMを用いたテキスト内学習を支援するための説明型ソフトアンサンブルフレームワークであるEASEを提案する。
論文 参考訳(メタデータ) (2023-11-13T06:13:38Z) - Proto-lm: A Prototypical Network-Based Framework for Built-in
Interpretability in Large Language Models [27.841725567976315]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野を著しく進歩させてきたが、その解釈可能性の欠如が大きな関心事となっている。
本稿では,LLMが即座に解釈可能な埋め込みを学習できるネットワークベースのホワイトボックスフレームワークであるproto-lmを紹介する。
提案手法の適用性と解釈性は,幅広いNLPタスクの実験を通じて実証され,性能を犠牲にすることなく解釈可能なモデルを作成する新たな可能性を示す。
論文 参考訳(メタデータ) (2023-11-03T05:55:32Z) - DoLa: Decoding by Contrasting Layers Improves Factuality in Large
Language Models [79.01926242857613]
大型言語モデル(LLM)は幻覚を起こす傾向があり、事前訓練中に見られる事実から逸脱した内容を生成する。
事前学習したLLMによる幻覚を低減するための簡単な復号法を提案する。
コントラスティング・レイヤ(DoLa)アプローチによるこのデコーディングは,事実知識をよりよく提示し,誤った事実の生成を減らすことができる。
論文 参考訳(メタデータ) (2023-09-07T17:45:31Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Improving Language Plasticity via Pretraining with Active Forgetting [63.36484652568976]
本稿では,新しい言語に迅速に適応可能な PLM を作成する簡単な方法として,事前学習中に能動的に忘れる機構を提案する。
RoBERTaを用いた実験では、忘れるメカニズムで事前訓練されたモデルは、言語適応中により高速な収束を示す。
論文 参考訳(メタデータ) (2023-07-03T17:12:44Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。