論文の概要: Training Dynamics of Parametric and In-Context Knowledge Utilization in Language Models
- arxiv url: http://arxiv.org/abs/2510.02370v1
- Date: Mon, 29 Sep 2025 06:18:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.049594
- Title: Training Dynamics of Parametric and In-Context Knowledge Utilization in Language Models
- Title(参考訳): 言語モデルにおけるパラメトリック・インコンテキスト知識活用の学習ダイナミクス
- Authors: Minsung Kim, Dong-Kyum Kim, Jea Kwon, Nakyeong Yang, Kyomin Jung, Meeyoung Cha,
- Abstract要約: 大規模言語モデルは、推論時に取得した文脈内知識と事前訓練中に取得したパラメトリック知識の衝突にしばしば遭遇する。
本研究は,学習条件がモデルにおけるインコンテキストとパラメトリック知識の使用にどのように影響するかを初めて制御した研究である。
実験の結果,文書内における事実の反復は,パラメトリックとインコンテクストの両方の能力の発達を促進することが明らかとなった。
- 参考スコア(独自算出の注目度): 31.829376135133554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models often encounter conflicts between in-context knowledge retrieved at inference time and parametric knowledge acquired during pretraining. Models that accept external knowledge uncritically are vulnerable to misinformation, whereas models that adhere rigidly to parametric knowledge fail to benefit from retrieval. Despite the widespread adoption of retrieval-augmented generation, we still lack a systematic understanding of what shapes knowledge-arbitration strategies during training. This gap risks producing pretrained models with undesirable arbitration behaviors and, consequently, wasting substantial computational resources after the pretraining budget has already been spent. To address this problem, we present the first controlled study of how training conditions influence models' use of in-context and parametric knowledge, and how they arbitrate between them. We train transformer-based language models on a synthetic biographies corpus while systematically controlling various conditions. Our experiments reveal that intra-document repetition of facts fosters the development of both parametric and in-context capabilities. Moreover, training on a corpus that contains inconsistent information or distributional skew encourages models to develop robust strategies for leveraging parametric and in-context knowledge. Rather than viewing these non-ideal properties as artifacts to remove, our results indicate that they are important for learning robust arbitration. These insights offer concrete, empirical guidance for pretraining models that harmoniously integrate parametric and in-context knowledge.
- Abstract(参考訳): 大規模言語モデルは、推論時に取得した文脈内知識と事前訓練中に取得したパラメトリック知識の衝突にしばしば遭遇する。
外部知識を非批判的に受け入れるモデルは誤情報に弱いが、パラメトリック知識に厳格に固執するモデルは検索の恩恵を受けない。
検索強化世代が広く採用されているにもかかわらず、トレーニング中にどのような知識配置戦略を形作るかという体系的な理解はいまだに欠けている。
このギャップは、望ましくない調停行動を伴う事前訓練されたモデルを生成するリスクがあり、その結果、事前訓練予算が既に費やされた後、かなりの計算資源を浪費する。
この問題に対処するために、トレーニング条件がモデルにおけるインコンテキストとパラメトリック知識の使用にどのように影響するか、そしてそれらの間を調停するかについて、最初の制御された研究を提示する。
我々は,様々な条件を体系的に制御しながら,トランスフォーマーに基づく言語モデルを合成バイオグラフコーパスで訓練する。
実験の結果,文書内における事実の反復は,パラメトリックとインコンテクストの両方の能力の発達を促進することが明らかとなった。
さらに、一貫性のない情報や分布スキューを含むコーパスでのトレーニングは、パラメトリックおよびインコンテキスト知識を活用するための堅牢な戦略を開発することをモデルに促す。
これらの非イデアルプロパティを除去するアーティファクトとして見るのではなく、ロバストな仲裁を学ぶ上で重要であることを示す。
これらの洞察は、パラメトリックとインコンテキストの知識を調和して統合する事前学習モデルに対して、具体的かつ経験的なガイダンスを提供する。
関連論文リスト
- FaithfulRAG: Fact-Level Conflict Modeling for Context-Faithful Retrieval-Augmented Generation [37.28571879699906]
検索システムで強化された大規模言語モデル(LLM)は、知識集約的なタスクを扱う上で大きな可能性を示している。
本稿では,モデルパラメトリック知識と検索コンテキストの相違を明示的にモデル化することにより,知識の対立を解決する新しいフレームワークであるFaithfulRAGを提案する。
論文 参考訳(メタデータ) (2025-06-10T16:02:54Z) - Task Matters: Knowledge Requirements Shape LLM Responses to Context-Memory Conflict [13.091464232666835]
大規模言語モデルは文脈知識とパラメトリックメモリの両方を必要とするが、これらの情報源は一致しない。
本稿では,モデルの信念とキュレートされた知識集合との間の不一致を自動的に検出する,モデルに依存しない診断フレームワークを用いて,この問題を考察する。
競合によるパフォーマンス劣化は、タスクの知識依存と相関している。
論文 参考訳(メタデータ) (2025-06-06T19:20:23Z) - Mitigating Knowledge Conflicts in Language Model-Driven Question Answering [15.29366851382021]
2つの基本的な知識源は、文書ベースの質問応答と文書要約システムにおいて重要な役割を担っている。
近年の研究では、モデル固有の知識とトレーニングデータにおける基礎的真理解との間に不整合が存在する場合、システムは推論中に問題のある振る舞いを示す可能性があるという重要な課題が明らかにされている。
本研究は,ソース入力と出力との明示的な接続を構築することで,幻覚を最小化する手法を提案する。
論文 参考訳(メタデータ) (2024-11-18T07:33:10Z) - Context-Parametric Inversion: Why Instruction Finetuning Can Worsen Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Does Pre-training Induce Systematic Inference? How Masked Language
Models Acquire Commonsense Knowledge [91.15301779076187]
プレトレーニング中のBERTモデルのミニバッチに言語知識を導入し、モデルがサポート対象の推論にどの程度うまく一般化するかを評価する。
一般化は事前学習の過程では改善せず, 帰納的, 体系的推論ではなく, 表面的, 共起的パターンからコモンセンス知識が獲得されることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T03:13:04Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。