論文の概要: GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay
- arxiv url: http://arxiv.org/abs/2508.04676v1
- Date: Wed, 06 Aug 2025 17:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.858399
- Title: GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay
- Title(参考訳): GeRe: 汎用サンプルリプレイによるLCMの継続的な学習における効果的なアンチフォーミングを目指して
- Authors: Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen,
- Abstract要約: 汎用サンプルリプレイ(GeRe)は,通常の事前学習テキストを効率的なアンチフォゲッティングに利用するフレームワークである。
我々は,事前コンパイルされた汎用リプレイサンプルの小さな固定セットが,両方の懸念を解決し,全体的な性能を向上しつつ,一般能力を維持できるのに十分であることを示す最初の試みである。
- 参考スコア(独自算出の注目度): 21.865853486614466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usual pretraining texts for efficient anti-forgetting. Beyond revisiting the most prevalent replay-based practices under GeRe, we further leverage neural states to introduce a enhanced activation states constrained optimization method using threshold-based margin (TM) loss, which maintains activation state consistency during replay learning. We are the first to validate that a small, fixed set of pre-collected general replay samples is sufficient to resolve both concerns--retaining general capabilities while promoting overall performance across sequential tasks. Indeed, the former can inherently facilitate the latter. Through controlled experiments, we systematically compare TM with different replay strategies under the GeRe framework, including vanilla label fitting, logit imitation via KL divergence and feature imitation via L1/L2 losses. Results demonstrate that TM consistently improves performance and exhibits better robustness. Our work paves the way for efficient replay of LLMs for the future. Our code and data are available at https://github.com/Qznan/GeRe.
- Abstract(参考訳): 大規模言語モデル(LLM)の連続学習能力は,人工知能の進歩に不可欠である。
しかし、様々な領域にまたがる連続的な微調整LDMは、しばしば破滅的な忘れ込みに悩まされる。
1) 一般能力の大幅な忘れ、及び
2) それまでの学習課題では, 急激な性能低下がみられた。
両問題をシンプルながら安定した方法で同時に解決するために,通常の事前学習テキストを効率的なアンチフォゲッティングに用いるフレームワークであるジェネラル・サンプル・リプレイ(GeRe)を提案する。
GeReの下で最も普及しているリプレイベースのプラクティスを再考するだけでなく、リプレイ学習時のアクティベーション状態の整合性を維持するしきい値ベースマージン(TM)損失を用いた、強化されたアクティベーション状態制約最適化手法を導入するために、ニューラルステートをさらに活用する。
我々は,連続タスク全体のパフォーマンスを向上しつつ,汎用性を保ちつつ,双方の懸念を解消するのに十分な,小さな,固定された汎用リプレイサンプルのセットを最初に検証した。
実際、前者は本質的に後者を促進できる。
制御された実験を通して, TMとGeReフレームワークの異なるリプレイ戦略を体系的に比較し, ベニララベルフィッティング, KL分散によるロジット模倣, L1/L2損失による特徴模倣などを行った。
結果は、TMが一貫してパフォーマンスを改善し、より堅牢性を示すことを示した。
我々の研究は、将来のLLMの効率的なリプレイの道を開く。
私たちのコードとデータはhttps://github.com/Qznan/GeRe.orgで公開されています。
関連論文リスト
- Experience Replay with Random Reshuffling [3.6622737533847936]
教師付き学習では、データセットをエポック毎にシャッフルし、データを逐次的に消費することが一般的であり、これはランダムリシャッフル(RR)と呼ばれる。
RRをリプレイ体験に拡張するサンプリング手法を提案する。
提案手法をAtariベンチマークで評価し, 深層強化学習の有効性を実証した。
論文 参考訳(メタデータ) (2025-03-04T04:37:22Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Investigating the Interplay of Prioritized Replay and Generalization [23.248982121562985]
本稿では,TD誤差に比例してサンプリングを行う優先経験再生(PER)について検討する。
PERは動的プログラミングにおける優先順位付けされたスイーピングの成功にインスパイアされている。
論文 参考訳(メタデータ) (2024-07-12T21:56:24Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。