Fugu-MT 論文翻訳(概要): Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge

論文の概要: Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge

arxiv url: http://arxiv.org/abs/2505.16178v1
Date: Thu, 22 May 2025 03:34:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-23 17:12:48.013577
Title: Understanding Fact Recall in Language Models: Why Two-Stage Training Encourages Memorization but Mixed Training Teaches Knowledge
Title（参考訳）: 言語モデルにおけるファクトリコールの理解:2段階学習が覚醒を促進させるのはなぜか : 混合学習の知識
Authors: Ying Zhang, Benjamin Heinzerling, Dongyuan Li, Ryoma Ishigaki, Yuta Hitomi, Kentaro Inui,
Abstract要約: トレーニング戦略がトレーニング中にモデルパラメータがどのように形成され、これらの違いが事実を思い出す能力にどのように影響するかを検討する。 Llama-3.2B と Pythia-2.8B モデルを用いて合成ファクトリコールデータセットの解析を行ったところ、混合トレーニングはより大きく、より集中的な共有パラメータのセットを促進することがわかった。
参考スコア（独自算出の注目度）: 21.798525556259378
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Fact recall, the ability of language models (LMs) to retrieve specific factual knowledge, remains a challenging task despite their impressive general capabilities. Common training strategies often struggle to promote robust recall behavior with two-stage training, which first trains a model with fact-storing examples (e.g., factual statements) and then with fact-recalling examples (question-answer pairs), tending to encourage rote memorization rather than generalizable fact retrieval. In contrast, mixed training, which jointly uses both types of examples, has been empirically shown to improve the ability to recall facts, but the underlying mechanisms are still poorly understood. In this work, we investigate how these training strategies affect how model parameters are shaped during training and how these differences relate to their ability to recall facts. We introduce cross-task gradient trace to identify shared parameters, those strongly influenced by both fact-storing and fact-recalling examples. Our analysis on synthetic fact recall datasets with the Llama-3.2B and Pythia-2.8B models reveals that mixed training encouraging a larger and more centralized set of shared parameters. These findings suggest that the emergence of parameters may play a key role in enabling LMs to generalize factual knowledge across task formulations.
Abstract（参考訳）: ファクトリコール(Fact recall)とは、言語モデル(LM)が特定の事実知識を検索する能力である。一般的なトレーニング戦略は、2段階のトレーニングで頑健なリコール行動を促進するのに苦労することが多い。対照的に、両方の例を共同で使用する混合トレーニングは、事実をリコールする能力を改善するために実証的に実証されているが、基礎となるメカニズムはいまだに理解されていない。本研究では,これらのトレーニング戦略が,トレーニング中にモデルパラメータがどう形成されるか,これらの違いが事実を思い出す能力にどのように影響するかを検討する。本稿では,共有パラメータの同定にクロスタスク勾配トレースを導入し,実例と実例の両方の影響を強く受けている。 Llama-3.2B と Pythia-2.8B モデルを用いて合成ファクトリコールデータセットの解析を行ったところ、混合トレーニングはより大きく、より集中的な共有パラメータのセットを促進することがわかった。これらの結果から,パラメータの出現は,タスク定式化の事実知識の一般化に重要な役割を果たす可能性が示唆された。

関連論文リスト

Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers [0.0]
大規模言語モデルにおける記憶と一般化の関係について検討する。小さなモデルは未確認の算術の場合に外挿するが、事実を記憶できないが、大きなモデルは記憶するが外挿することができない。調査の結果、事前学習は本質的に他の学習モードよりも1つの学習モードを好む可能性が示唆された。
論文参考訳（メタデータ） (2025-06-10T14:49:33Z)
How do language models learn facts? Dynamics, curricula and hallucinations [22.693703460345873]
大規模言語モデルは事前学習中に膨大な知識を蓄積するが、この買収を統括する力学はいまだに理解されていない。本研究は,人工的事実記憶課題における言語モデルの学習力学について検討する。
論文参考訳（メタデータ） (2025-03-27T16:43:45Z)
Self-supervised Analogical Learning using Language Models [59.64260218737556]
自己教師型アナログ学習フレームワークであるSALを提案する。 SALは人間の類推過程を模倣し、高品質な記号解を明示的に伝達するようモデルを訓練する。得られたモデルは、幅広い推論ベンチマークでベース言語モデルより優れていることを示す。
論文参考訳（メタデータ） (2025-02-03T02:31:26Z)
Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文参考訳（メタデータ） (2024-11-20T17:55:38Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Co-occurrence is not Factual Association in Language Models [19.708303468664088]
言語モデルは,真の事実関連性ではなく,単語共起統計の学習に偏りがあることが示される。本稿では,言語モデルにおける事実関連性の学習を改善するための2つの戦略を提案する。
論文参考訳（メタデータ） (2024-09-21T08:13:16Z)
Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文参考訳（メタデータ） (2024-06-06T17:59:09Z)
Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文参考訳（メタデータ） (2022-05-29T16:07:30Z)
Imbalanced Adversarial Training with Reweighting [33.51820466479575]
学習データセットが不均衡である場合、逆向きに訓練されたモデルは、表現不足のクラスでは、はるかにパフォーマンスが悪くなる可能性があることを示す。従来の再重み付け戦略は、敵の訓練の不均衡問題に対処する効果を失う可能性がある。本研究では,不均衡シナリオ下での対人訓練を容易にするために,SRAT(Separable Reweighted Adversarial Training)を提案する。
論文参考訳（メタデータ） (2021-07-28T20:51:36Z)
Which Mutual-Information Representation Learning Objectives are Sufficient for Control? [80.2534918595143]
相互情報は、データの表現を学習するために魅力的な形式を提供する。本稿では,最適政策の学習と表現のための状態表現の十分性について定式化する。意外なことに、これらの2つの目的は、MDPの構造に関する軽度で一般的な仮定を前提に、不十分な表現をもたらす可能性がある。
論文参考訳（メタデータ） (2021-06-14T10:12:34Z)
Low-Resource Knowledge-Grounded Dialogue Generation [74.09352261943913]
我々は、限られた訓練例しか利用できないという自然な仮定のもと、知識基底による対話生成を考察する。生成モデル全体から知識基底の対話に依存するパラメータを分離するために,不整合応答デコーダを考案する。 1/8のトレーニングデータだけで、我々のモデルは最先端のパフォーマンスを達成でき、ドメイン外の知識をうまく一般化できる。
論文参考訳（メタデータ） (2020-02-24T16:20:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。