論文の概要: Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge
- arxiv url: http://arxiv.org/abs/2505.16178v1
- Date: Thu, 22 May 2025 03:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.013577
- Title: Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge
- Title(参考訳): 言語モデルにおけるファクトリコールの理解:2段階学習が覚醒を促進させるのはなぜか : 混合学習の知識
- Authors: Ying Zhang, Benjamin Heinzerling, Dongyuan Li, Ryoma Ishigaki, Yuta Hitomi, Kentaro Inui,
- Abstract要約: トレーニング戦略がトレーニング中にモデルパラメータがどのように形成され、これらの違いが事実を思い出す能力にどのように影響するかを検討する。
Llama-3.2B と Pythia-2.8B モデルを用いて合成ファクトリコールデータセットの解析を行ったところ、混合トレーニングはより大きく、より集中的な共有パラメータのセットを促進することがわかった。
- 参考スコア(独自算出の注目度): 21.798525556259378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fact recall, the ability of language models (LMs) to retrieve specific factual knowledge, remains a challenging task despite their impressive general capabilities. Common training strategies often struggle to promote robust recall behavior with two-stage training, which first trains a model with fact-storing examples (e.g., factual statements) and then with fact-recalling examples (question-answer pairs), tending to encourage rote memorization rather than generalizable fact retrieval. In contrast, mixed training, which jointly uses both types of examples, has been empirically shown to improve the ability to recall facts, but the underlying mechanisms are still poorly understood. In this work, we investigate how these training strategies affect how model parameters are shaped during training and how these differences relate to their ability to recall facts. We introduce cross-task gradient trace to identify shared parameters, those strongly influenced by both fact-storing and fact-recalling examples. Our analysis on synthetic fact recall datasets with the Llama-3.2B and Pythia-2.8B models reveals that mixed training encouraging a larger and more centralized set of shared parameters. These findings suggest that the emergence of parameters may play a key role in enabling LMs to generalize factual knowledge across task formulations.
- Abstract(参考訳): ファクトリコール(Fact recall)とは、言語モデル(LM)が特定の事実知識を検索する能力である。
一般的なトレーニング戦略は、2段階のトレーニングで頑健なリコール行動を促進するのに苦労することが多い。
対照的に、両方の例を共同で使用する混合トレーニングは、事実をリコールする能力を改善するために実証的に実証されているが、基礎となるメカニズムはいまだに理解されていない。
本研究では,これらのトレーニング戦略が,トレーニング中にモデルパラメータがどう形成されるか,これらの違いが事実を思い出す能力にどのように影響するかを検討する。
本稿では,共有パラメータの同定にクロスタスク勾配トレースを導入し,実例と実例の両方の影響を強く受けている。
Llama-3.2B と Pythia-2.8B モデルを用いて合成ファクトリコールデータセットの解析を行ったところ、混合トレーニングはより大きく、より集中的な共有パラメータのセットを促進することがわかった。
これらの結果から,パラメータの出現は,タスク定式化の事実知識の一般化に重要な役割を果たす可能性が示唆された。
関連論文リスト
- How do language models learn facts? Dynamics, curricula and hallucinations [22.693703460345873]
大規模言語モデルは事前学習中に膨大な知識を蓄積するが、この買収を統括する力学はいまだに理解されていない。
本研究は,人工的事実記憶課題における言語モデルの学習力学について検討する。
論文 参考訳(メタデータ) (2025-03-27T16:43:45Z) - Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z) - Co-occurrence is not Factual Association in Language Models [19.708303468664088]
言語モデルは,真の事実関連性ではなく,単語共起統計の学習に偏りがあることが示される。
本稿では,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-09-21T08:13:16Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z) - Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。
生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。
1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文 参考訳(メタデータ) (2020-02-24T16:20:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。