論文の概要: Understanding Contextual Recall in Transformers: How Finetuning Enables In-Context Reasoning over Pretraining Knowledge
- arxiv url: http://arxiv.org/abs/2603.20969v1
- Date: Sat, 21 Mar 2026 22:46:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.174331
- Title: Understanding Contextual Recall in Transformers: How Finetuning Enables In-Context Reasoning over Pretraining Knowledge
- Title(参考訳): 変圧器における文脈リコールの理解--事前学習による文脈推論の実現
- Authors: Bhavya Vasudeva, Puneesh Deora, Alberto Bietti, Vatsal Sharan, Christos Thrampoulidis,
- Abstract要約: 我々は,文脈的リコールが単独で事前学習から生じるかどうかを検討する。
ICL評価とは異なる暗黙的推論を必要とするタスクの微調整は、文脈的リコールの出現を誘発することを示す。
メカニカル・インサイト(メカニカル・インサイト)では,現実から文脈への遷移を再現するアテンションオンリー・トランスフォーマーの構成を導出する。
- 参考スコア(独自算出の注目度): 50.009682083079205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models excel at in-context learning (ICL), where they can adapt to new tasks based on contextual examples, without parameter updates. In a specific form of ICL, which we refer to as \textit{contextual recall}, models pretrained on open-ended text leverage pairwise examples to recall specific facts in novel prompt formats. We investigate whether contextual recall emerges from pretraining alone, what finetuning is required, and what mechanisms drive the necessary representations. For this, we introduce a controlled synthetic framework where pretraining sequences consist of subject-grammar-attribute tuples, with attribute types tied to grammar statistics. We demonstrate that while such pretraining successfully yields factual knowledge, it is insufficient for contextual recall: models fail to implicitly infer attribute types when the grammar statistics are removed in ICL prompts. However, we show that finetuning on tasks requiring implicit inference, distinct from the ICL evaluation, using a subset of subjects, triggers the emergence of contextual recall across all subjects. This transition is accompanied by the formation of low-dimensional latent encodings of the shared attribute type. For mechanistic insight, we derive a construction for an attention-only transformer that replicates the transition from factual to contextual recall, corroborated by empirical validation.
- Abstract(参考訳): トランスフォーマーベースの言語モデルはコンテキスト内学習(ICL)に優れており、パラメータの更新なしにコンテキストの例に基づいて新しいタスクに適応することができる。
In specific form of ICL, which is we referred as \textit{contextual recall}, models pretrained on open-ended text leverage eachwise example to recalls in novel prompt formats。
我々は、文脈的リコールが事前学習単独で発生するか、どの微調整が必要か、どのメカニズムが必要な表現を駆動するかを検討する。
そこで本研究では,文法統計に関連付けられた属性型を持つ主語-文法-属性タプルからなる事前学習シーケンスを制御した合成フレームワークを提案する。
ICLプロンプトで文法統計が除去された場合,モデルが属性型を暗黙的に推測することができない。
しかし,ICL評価とは異なる暗黙的推論を必要とするタスクの微調整は,被験者のサブセットを用いて,すべての被験者に文脈的リコールの出現を誘発することを示す。
この遷移は共有属性型の低次元潜在符号化の形成を伴う。
メカニカル・インサイト(メカニカル・インサイト)では,実物から文脈的リコールへの移行を再現するアテンションオンリー・トランスフォーマーの構築が,実証的検証によって裏付けられている。
関連論文リスト
- Trace Is In Sentences: Unbiased Lightweight ChatGPT-Generated Text Detector [2.11622808613962]
原文とPSPで修正したAI生成テキストの両方を検出する新しいタスクを導入する。
テキストの内部構造に基づいてテキストを分類する軽量なフレームワークを提案する。
本手法は,事前学習した言語モデルからの文の埋め込みを符号化し,その関係を注意してモデル化する。
論文 参考訳(メタデータ) (2025-09-23T02:00:35Z) - SCOPE: A Self-supervised Framework for Improving Faithfulness in Conditional Text Generation [55.61004653386632]
LLM(Large Language Models)は、しばしば幻覚(幻覚)を生成する。
本稿では,不信なサンプルのトレーニングセットを生成するための,新たな自己指導手法を提案する。
そしてトレーニングプロセスを使ってモデルを洗練し、不信なものよりも基礎的なアウトプットの生成を奨励します。
論文 参考訳(メタデータ) (2025-02-19T12:31:58Z) - On the Loss of Context-awareness in General Instruction Fine-tuning [101.03941308894191]
教師付き微調整後の文脈認識の喪失について検討した。
性能低下は,会話指導の微調整中に学んだ異なる役割に対する偏見と関連していることがわかった。
一般命令微調整データセットから文脈依存例を識別する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T00:16:01Z) - Context-aware Prompt Tuning: Advancing In-Context Learning with Adversarial Methods [69.36397993451742]
In this work introduced Context-aware Prompt Tuning (CPT) - ICL, PT, and adversarial attack。
入力および出力フォーマットのユニークな構造を考慮して、特定のコンテキストトークンを変更する。
敵の攻撃にインスパイアされた我々は、損失を最大化するのではなく、最小化に焦点をあてて、コンテキストに存在するラベルに基づいて入力を調整する。
論文 参考訳(メタデータ) (2024-10-22T17:45:47Z) - From Unstructured Data to In-Context Learning: Exploring What Tasks Can Be Learned and When [19.841163050181194]
トランスフォーマーのような大きな言語モデル(LLM)は、インコンテキスト学習(ICL)機能を示す。
我々は、非構造化データで訓練されたモデルにおいて、ICLを実現するために、重要なシーケンスモデル要件とデータ構造について検討する。
我々は,非構造化データにおける意味的関連語対の共起から,多くのICL機能が出現することを発見した。
In one in logic reasoning task that requires generalization to new, unseen pattern, and another in analogy completion where relevant word pairs appears in fixed training position。
論文 参考訳(メタデータ) (2024-05-31T18:46:06Z) - Mixed-effects transformers for hierarchical adaptation [1.9105318290910576]
本稿では,階層的に構造化されたプレフィックスを学習するための新しいアプローチであるMulti-Efects Transformer(MET)を紹介する。
一般的な混合効果モデルのクラスがトランスフォーマーベースのアーキテクチャにどのように拡張されるかを示す。
論文 参考訳(メタデータ) (2022-05-03T19:34:15Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。