論文の概要: Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm
- arxiv url: http://arxiv.org/abs/2605.10640v1
- Date: Mon, 11 May 2026 14:28:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.896037
- Title: Towards Understanding Continual Factual Knowledge Acquisition of Language Models: From Theory to Algorithm
- Title(参考訳): 言語モデルの連続的Factual Knowledge Acquisitionの理解に向けて:理論からアルゴリズムへ
- Authors: Haoyu Wang, Yifan Shang, Zhongxiang Sun, Weijie Yu, Xiao Zhang, Jun Xu,
- Abstract要約: 連続的Factual Knowledge Acquisition(cFKA)のトレーニングダイナミクスを特徴付ける理論的枠組みを提案する。
我々はtextbfSelecting textbfTokens via attentitextbfOn textbfContribution (STOC) と呼ばれる新しい生成データ再生手法を提案する。
- 参考スコア(独自算出の注目度): 14.490693817432414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Pre-Training (CPT) is essential for enabling Language Models (LMs) to integrate new knowledge without erasing old. While classical CPT techniques like data replay have become the standard paradigm, the mechanisms underlying how LMs acquire and retain facts over time, termed as continual Factual Knowledge Acquisition (cFKA), remain unclear. In this work, we present a theoretical framework that characterizes the training dynamics of cFKA using a single-layer Transformer, offering a unified explanation for the behavior of representative CPT methods. Our analysis reveals that regularization-based methods merely adjust the convergence rate of parameters without altering the inherent forgetting tendency, whereas data replay methods succeed in shifting convergence dynamics and stabilizing pretrained knowledge. Building on these insights, we propose a novel generative data replay approach, called \textbf{S}electing \textbf{T}okens via attenti\textbf{O}n \textbf{C}ontribution~(STOC), which identifies influential factual snippets to guide replay data generation. Extensive experiments on both synthetic and real-world datasets validate our findings and demonstrate that STOC effectively enhances cFKA by mitigating catastrophic forgetting.
- Abstract(参考訳): CPT(Continuous Pre-Training)は、言語モデル(LM)が古い知識を消し去ることなく新しい知識を統合するために不可欠である。
データ再生のような古典的なCPT技術が標準パラダイムとなっているが、LMが事実を取得し、保持するメカニズムは、継続的Factual Knowledge Acquisition (cFKA)と呼ばれる。
本研究では,一層トランスを用いたcFKAのトレーニング力学を特徴付ける理論的枠組みを提案し,代表的CPT手法の動作を統一的に説明する。
解析の結果, 正規化に基づく手法は, パラメータの収束率を変化させることなくパラメータの収束率を調整できるのに対し, データ再生法は収束ダイナミクスのシフトや事前学習知識の安定化に成功していることがわかった。
これらの知見に基づいて,本研究では,Attenti\textbf{O}n \textbf{C}ontribution~(STOC)を介して,データ生成をガイドする,‘textbf{S}electing \textbf{T}okens’と呼ばれる新しい生成データ再生手法を提案する。
その結果,STOCは破滅的忘れを緩和し,cFKAを効果的に増強することを示した。
関連論文リスト
- EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - CIKT: A Collaborative and Iterative Knowledge Tracing Framework with Large Language Models [14.273311275013057]
知識追跡は、学生の学習状態を時間とともにモデル化し、将来のパフォーマンスを予測することを目的としている。
従来のKTメソッドは、複雑な知識依存の説明可能性、スケーラビリティ、効果的なモデリングにおいてしばしば課題に直面します。
予測精度と説明可能性の両方を高めるために,大規模言語モデルを利用した協調反復的知識追跡(CIKT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T10:16:16Z) - AdvKT: An Adversarial Multi-Step Training Framework for Knowledge Tracing [64.79967583649407]
知識追跡(KT)は、学生の知識状態を監視し、質問シーケンスに対する反応をシミュレートする。
既存のKTモデルは通常、単一ステップのトレーニングパラダイムに従っており、大きなエラーの蓄積につながる。
本稿では,多段階KTタスクに着目した新しい知識追跡のための多段階学習フレームワーク(AdvKT)を提案する。
論文 参考訳(メタデータ) (2025-04-07T03:31:57Z) - STCKGE:Continual Knowledge Graph Embedding Based on Spatial Transformation [6.534658139904185]
空間変換に基づく連続的知識グラフ埋め込みフレームワークSTCKGEを提案する。
この枠組みでは、実体位置は基底位置ベクトルとオフセットベクトルによって共同で決定される。
マルチホップ関係学習におけるSTCKGEの強い性能と予測精度を示し,平均MRR改善率は5.4%であった。
論文 参考訳(メタデータ) (2025-03-11T08:54:03Z) - AAKT: Enhancing Knowledge Tracing with Alternate Autoregressive Modeling [23.247238358162157]
Knowledge Tracingは、学生の過去の演習と教育環境における追加情報に基づいて、将来のパフォーマンスを予測することを目的としている。
知識追跡のための自己回帰モデリングにおける主要な課題の1つは、運動を通して学習者の前(プレレスポンス)と後(ポストレスポンス)状態を効果的に表現することである。
本稿では, 自己回帰モデル(自己回帰モデル)の原理に則って, 知識追跡タスクを生成過程として扱うことによって, 新たな視点を提案する。
論文 参考訳(メタデータ) (2025-02-17T14:09:51Z) - Temporal-Difference Variational Continual Learning [77.92320830700797]
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
提案手法は, 変分CL法より優れたカタストロフィックフォーミングを効果的に緩和する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Train-Attention: Meta-Learning Where to Focus in Continual Knowledge Learning [15.475427498268393]
TAALM(Train-Attention-Augmented Language Model)は,トークンに対する重み付けを動的に予測・適用することにより,学習効率を向上させる。
我々は,TAALMがベースライン上での最先端性能を証明し,従来のCKLアプローチと統合した場合に相乗的互換性を示すことを示す。
論文 参考訳(メタデータ) (2024-07-24T01:04:34Z) - A Unified and General Framework for Continual Learning [58.72671755989431]
継続学習(CL)は、以前取得した知識を維持しながら、動的かつ変化するデータ分布から学ぶことに焦点を当てている。
正規化ベース、ベイズベース、メモリ再生ベースなど、破滅的な忘れ込みの課題に対処する様々な手法が開発されている。
本研究の目的は,既存の方法論を包含し,整理する包括的かつ包括的な枠組みを導入することで,このギャップを埋めることである。
論文 参考訳(メタデータ) (2024-03-20T02:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。