論文の概要: GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay
- arxiv url: http://arxiv.org/abs/2508.04676v1
- Date: Wed, 06 Aug 2025 17:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.858399
- Title: GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay
- Title(参考訳): GeRe: 汎用サンプルリプレイによるLCMの継続的な学習における効果的なアンチフォーミングを目指して
- Authors: Yunan Zhang, Shuoran Jiang, Mengchen Zhao, Yuefeng Li, Yang Fan, Xiangping Wu, Qingcai Chen,
- Abstract要約: 汎用サンプルリプレイ(GeRe)は,通常の事前学習テキストを効率的なアンチフォゲッティングに利用するフレームワークである。
我々は,事前コンパイルされた汎用リプレイサンプルの小さな固定セットが,両方の懸念を解決し,全体的な性能を向上しつつ,一般能力を維持できるのに十分であることを示す最初の試みである。
- 参考スコア(独自算出の注目度): 21.865853486614466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The continual learning capability of large language models (LLMs) is crucial for advancing artificial general intelligence. However, continual fine-tuning LLMs across various domains often suffers from catastrophic forgetting, characterized by: 1) significant forgetting of their general capabilities, and 2) sharp performance declines in previously learned tasks. To simultaneously address both issues in a simple yet stable manner, we propose General Sample Replay (GeRe), a framework that use usual pretraining texts for efficient anti-forgetting. Beyond revisiting the most prevalent replay-based practices under GeRe, we further leverage neural states to introduce a enhanced activation states constrained optimization method using threshold-based margin (TM) loss, which maintains activation state consistency during replay learning. We are the first to validate that a small, fixed set of pre-collected general replay samples is sufficient to resolve both concerns--retaining general capabilities while promoting overall performance across sequential tasks. Indeed, the former can inherently facilitate the latter. Through controlled experiments, we systematically compare TM with different replay strategies under the GeRe framework, including vanilla label fitting, logit imitation via KL divergence and feature imitation via L1/L2 losses. Results demonstrate that TM consistently improves performance and exhibits better robustness. Our work paves the way for efficient replay of LLMs for the future. Our code and data are available at https://github.com/Qznan/GeRe.
- Abstract(参考訳): 大規模言語モデル(LLM)の連続学習能力は,人工知能の進歩に不可欠である。
しかし、様々な領域にまたがる連続的な微調整LDMは、しばしば破滅的な忘れ込みに悩まされる。
1) 一般能力の大幅な忘れ、及び
2) それまでの学習課題では, 急激な性能低下がみられた。
両問題をシンプルながら安定した方法で同時に解決するために,通常の事前学習テキストを効率的なアンチフォゲッティングに用いるフレームワークであるジェネラル・サンプル・リプレイ(GeRe)を提案する。
GeReの下で最も普及しているリプレイベースのプラクティスを再考するだけでなく、リプレイ学習時のアクティベーション状態の整合性を維持するしきい値ベースマージン(TM)損失を用いた、強化されたアクティベーション状態制約最適化手法を導入するために、ニューラルステートをさらに活用する。
我々は,連続タスク全体のパフォーマンスを向上しつつ,汎用性を保ちつつ,双方の懸念を解消するのに十分な,小さな,固定された汎用リプレイサンプルのセットを最初に検証した。
実際、前者は本質的に後者を促進できる。
制御された実験を通して, TMとGeReフレームワークの異なるリプレイ戦略を体系的に比較し, ベニララベルフィッティング, KL分散によるロジット模倣, L1/L2損失による特徴模倣などを行った。
結果は、TMが一貫してパフォーマンスを改善し、より堅牢性を示すことを示した。
我々の研究は、将来のLLMの効率的なリプレイの道を開く。
私たちのコードとデータはhttps://github.com/Qznan/GeRe.orgで公開されています。
関連論文リスト
- Provable Effects of Data Replay in Continual Learning: A Feature Learning Perspective [28.881077229756404]
本稿では,連続学習における完全データ再生学習を総合的に分析するための理論的枠組みを提案する。
我々は,信号対雑音比(SNR)を,忘れに影響を及ぼす重要な要因とみなす。
高い信号タスクの優先順位付けは、下信号タスクの学習を容易にするだけでなく、破滅的な忘れの防止にも役立ちます。
論文 参考訳(メタデータ) (2026-02-02T20:21:17Z) - Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following [42.05102776289243]
強化学習(RL)は、様々な制約で命令に従うために、LLM(Large Language Models)を調整することを約束している。
タスク追従のための新しいサンプル効率のRLフレームワークであるHindsight instruction Replay (HiR)を提案する。
論文 参考訳(メタデータ) (2025-12-29T13:31:08Z) - Forget Less, Retain More: A Lightweight Regularizer for Rehearsal-Based Continual Learning [51.07663354001582]
ディープニューラルネットワークは破滅的な忘れ込みに悩まされ、新しいタスクのトレーニング後に以前のタスクのパフォーマンスが低下する。
本稿では,メモリベースの手法と正規化手法の交わりに着目し,この問題に対処する新しいアプローチを提案する。
我々は、メモリベース連続学習法において、情報最大化(IM)正則化と呼ばれる正規化戦略を定式化する。
論文 参考訳(メタデータ) (2025-12-01T15:56:00Z) - SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning [14.465381326192757]
2つの障害モードが、選択(リハーサルの方法)と統合(新しい知識を統合する方法)という、このギャップを駆動している、と私たちは主張する。
選択に対処するため,サプライズ優先リプレイ(SuRe)を提案する。
統合に対処するため,高速かつ遅いLoRAアダプタを指数移動平均(EMA)でマージし,長期的知識の安定化を図りながら迅速な適応を実現した。
論文 参考訳(メタデータ) (2025-11-27T12:06:33Z) - SFT Doesn't Always Hurt General Capabilities: Revisiting Domain-Specific Fine-Tuning in LLMs [53.77646961962239]
Supervised Fine-Tuning (SFT) は、大規模言語モデル(LLM)を特殊タスクに適用するための一般的なアプローチである。
より少ない学習率で一般的な性能劣化を著しく軽減することができる。
論文 参考訳(メタデータ) (2025-09-25T05:28:22Z) - Memorize or Generalize? Evaluating LLM Code Generation with Code Rewriting [54.48306552577881]
大規模な言語モデル(LLM)は、主にメモリ化(トレーニングデータの大きな部分を複製または再利用する)と一般化(Generalization)を併用している、と我々は主張する。
既存の評価は、表面/構造的類似性を無視し、繰り返しコードの良質な再利用を有害なリコールと記憶タスクの正しさで混同する。
そこで我々は,2つの信号を組み合わせた正規化スコアである覚書リスク指標(MRI)を提案する。 (i) モデルが元の地平解とどのように類似しているか, (ii) 元のタスクから書き換えされたタスクにどの程度の性能が低下するか。
論文 参考訳(メタデータ) (2025-03-04T05:39:24Z) - Experience Replay with Random Reshuffling [3.6622737533847936]
教師付き学習では、データセットをエポック毎にシャッフルし、データを逐次的に消費することが一般的であり、これはランダムリシャッフル(RR)と呼ばれる。
RRをリプレイ体験に拡張するサンプリング手法を提案する。
提案手法をAtariベンチマークで評価し, 深層強化学習の有効性を実証した。
論文 参考訳(メタデータ) (2025-03-04T04:37:22Z) - Mitigating Forgetting in LLM Fine-Tuning via Low-Perplexity Token Learning [61.99353167168545]
LLM生成データによる微調整により,目標タスクの性能が向上し,非目標タスクの劣化が低減されることを示す。
微調整後のLSMにおける破滅的忘れを緩和するために、トークンの難易度低減に基づく経験的説明を提供する最初の研究である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Investigating the Interplay of Prioritized Replay and Generalization [23.248982121562985]
本稿では,TD誤差に比例してサンプリングを行う優先経験再生(PER)について検討する。
PERは動的プログラミングにおける優先順位付けされたスイーピングの成功にインスパイアされている。
論文 参考訳(メタデータ) (2024-07-12T21:56:24Z) - FIRST: Faster Improved Listwise Reranking with Single Token Decoding [56.727761901751194]
まず、第1生成識別子の出力ロジットを活用して、候補のランク付け順序を直接取得する新しいリストワイズLLMリグレードアプローチであるFIRSTを紹介する。
実験結果から、BEIRベンチマークの利得により、FIRSTはロバストなランキング性能を維持しつつ、推論を50%高速化することが示された。
以上の結果から,LLMリランカーはクロスエンコーダに比べて強い蒸留信号を提供できることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T21:27:50Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [93.90047628101155]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
これを解決するために、新しいタスク学習中に過去のタスクからのデータを再生する手法を提案する。
しかし、メモリの制約やデータプライバシーの問題により、実際には期待できない。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - Generative Feature Replay with Orthogonal Weight Modification for
Continual Learning [20.8966035274874]
生成的再生は、破滅的な忘れを和らげるために、以前のタスクの擬似データを生成し再生する有望な戦略である。
生成モデルを用いて垂直層の特徴を再現することを提案する; 2) 自己監督型補助タスクを活用して特徴の安定性をさらに向上する。
いくつかのデータセットにおける実験結果から,我々の手法は常に強力なOWMよりも大幅に改善されていることが分かる。
論文 参考訳(メタデータ) (2020-05-07T13:56:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。