論文の概要: Fine-Tuning Dynamics of In-Context Factual Recall in Transformers
- arxiv url: http://arxiv.org/abs/2605.27774v1
- Date: Tue, 26 May 2026 23:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.611121
- Title: Fine-Tuning Dynamics of In-Context Factual Recall in Transformers
- Title(参考訳): 変圧器におけるインコンテクストファクチュアルリコールの微調整ダイナミクス
- Authors: Ruomin Huang, Eshaan Nichani, Jason D. Lee, Rong Ge,
- Abstract要約: インコンテキスト学習 -- プロンプトで与えられた例に基づいてタスクを実行する -- は、大きな言語モデルに現れている。
非コンテキスト学習が事実的知識のリコールをどのように活用するかを研究する。
IC-リコールデータを用いた1層トランスの微調整特性の解析を行った。
- 参考スコア(独自算出の注目度): 63.1821972855273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning \ -- performing tasks based on examples given in the prompt \ -- is an important capability that has emerged in large language models and has received significant attention in both theory and practice. Existing theoretical work often focuses on settings where the learning uses information purely from the prompt. However, many practical instances of in-context learning require the model to retrieve factual knowledge stored in the model's parameters, with the context serving to identify which knowledge is relevant. In this work, we study how in-context learning leverages factual knowledge recall. We formalize this behavior by introducing the \emph{in-context factual recall (IC-recall)} task, where a transformer is provided a context of (subject, answer) pairs generated from a hidden relation, along with a query subject, and must both infer this hidden relation and retrieve the corresponding answer. Factual knowledge is modeled by the transformer having access to a simple pre-constructed MLP associative memory storing (subject, relation, answer) triplets. We analyze the supervised fine-tuning dynamics of a one-layer transformer on IC-recall data and prove that the model successfully performs IC-recall by converging to a particular pairwise attention pattern. This fine-tuning stage requires a very small number of samples \ -- only polylogarithmic in the number of stored knowledge triplets. Experiments verify our theoretical predictions and show that the pairwise attention pattern emerges even when the MLP layer is pretrained instead of constructed.
- Abstract(参考訳): In-context Learning \ -- プロンプト \ で与えられた例に基づいてタスクを実行する -- は、大きな言語モデルに現れ、理論と実践の両方に大きな注目を集めている重要な機能である。
既存の理論的研究は、しばしば、学習がプロンプトから純粋に情報を使用する設定に焦点を当てる。
しかし、コンテキスト内学習の実践例の多くは、モデルがモデルパラメータに格納されている事実知識を検索する必要がある。
本研究では,文脈内学習が事実的知識リコールをどのように活用するかを考察する。
そこでは,隠れた関係から生成された(オブジェクト,応答)ペアのコンテキストと,クエリ対象から生成された(オブジェクト,応答)ペアをトランスフォーマーに提供し,この隠れた関係を推測し,対応する応答を検索する必要がある。
ファクチュアル知識は、単純な構築済みのMLP連想メモリストレージ(オブジェクト、関係、応答)三つ子にアクセスするトランスフォーマーによってモデル化される。
我々は、IC-リコールデータ上で1層トランスの教師付き微調整ダイナミクスを分析し、そのモデルが特定のペアの注意パターンに収束してIC-リコールを成功させることを示す。
この微調整の段階では、非常に少数のサンプル \ -- 記憶されている知識三重項の数にのみ多義性を必要とする。
実験によって理論予測が検証され,MLP層が構築される代わりに事前訓練された場合でも,ペアの注意パターンが出現することが示された。
関連論文リスト
- From Memories to Maps: Mechanisms of In-Context Reinforcement Learning in Transformers [2.4554686192257424]
本研究は,げっ歯類行動にインスパイアされた計画課題の分布について,コンテクスト内強化学習のためのトランスフォーマーを訓練する。
モデルに現れる学習アルゴリズムを特徴付ける。
メモリは計算資源として機能し、フレキシブルな動作をサポートするために生のエクスペリエンスとキャッシュされた計算の両方を格納する。
論文 参考訳(メタデータ) (2025-06-24T14:55:43Z) - Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。
本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文 参考訳(メタデータ) (2024-12-16T05:33:05Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - REALM: Retrieval-Augmented Language Model Pre-Training [37.3178586179607]
言語モデルの事前学習を潜伏知識検索システムで強化し,ウィキペディアのような大規模コーパスから文書を検索し,出席できるようにする。
本研究では,このような知識検索を教師なしで事前学習する方法を初めて示す。
オープンドメイン質問回答(Open-QA)の課題を微調整し,検索型言語モデル事前学習(REALM)の有効性を実証する。
論文 参考訳(メタデータ) (2020-02-10T18:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。