論文の概要: SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning
- arxiv url: http://arxiv.org/abs/2511.22367v1
- Date: Thu, 27 Nov 2025 12:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.549403
- Title: SuRe: Surprise-Driven Prioritised Replay for Continual LLM Learning
- Title(参考訳): SuRe: 連続LLM学習のためのサプライズ駆動優先リプレイ
- Authors: Hugo Hazard, Zafeirios Fountas, Martin A. Benfeghoul, Adnan Oomerjee, Jun Wang, Haitham Bou-Ammar,
- Abstract要約: 2つの障害モードが、選択(リハーサルの方法)と統合(新しい知識を統合する方法)という、このギャップを駆動している、と私たちは主張する。
選択に対処するため,サプライズ優先リプレイ(SuRe)を提案する。
統合に対処するため,高速かつ遅いLoRAアダプタを指数移動平均(EMA)でマージし,長期的知識の安定化を図りながら迅速な適応を実現した。
- 参考スコア(独自算出の注目度): 14.465381326192757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning, one's ability to adapt to a sequence of tasks without forgetting previously acquired knowledge, remains a major challenge in machine learning and a key gap between artificial and human intelligence. While regularisation and replay perform well in vision, they lag behind multi-task learning for large language models (LLMs), especially at scale with many tasks. We revisit replay and argue that two failure modes drive this gap: selection (what to rehearse) and integration (how to consolidate new knowledge). To address selection, we propose Surprise-prioritised Replay (SuRe), a simple, architecture-agnostic rule that ranks and stores the most surprising (high Negative Log-Likelihood) sequences. SuRe achieves state-of-the-art performance in the Large Number of Tasks (LNT) setting and delivers the best overall average across both Standard CL and LNT benchmarks. To address integration, we add a dual-learner design with fast and slow LoRA adapters merged via an exponential moving average (EMA), enabling rapid adaptation while stabilising long-term knowledge. Combining SuRe with the dual learner yields further gains, including improvements of up to +5 accuracy points on LNT over prior SOTA. Ablation studies confirm that our proposed method remains robust under reduced replay frequency and small buffer size, demonstrating both effectiveness and sample efficiency. Taken together, our results establish replay as a strong baseline for continual LLM fine-tuning and demonstrate that surprise-based selection and slow-weight consolidation are complementary components for mitigating catastrophic forgetting.
- Abstract(参考訳): 継続的学習は、以前獲得した知識を忘れずに一連のタスクに適応する能力であり、マシンラーニングにおける大きな課題であり、人工知能と人間の知性の間には重要なギャップがある。
正規化やリプレイは視覚面ではうまく機能するが、大きな言語モデル(LLM)のマルチタスク学習には遅れがある。
リプレイを再考し、2つの障害モードが、選択(リハーサルの方法)と統合(新たな知識の統合方法)という、このギャップを導いてくれます。
そこで我々は,サプライズ優先リプレイ(SuRe, Suprise-prioritised Replay)を提案する。
SuReは、LNT(Large Number of Tasks)設定で最先端のパフォーマンスを達成し、標準CLとLNTベンチマークの両方で最高の全体的な平均を提供する。
統合に対処するため,高速かつ遅いLoRAアダプタを指数移動平均(EMA)でマージし,長期的知識の安定化を図りながら迅速な適応を実現した。
SuReと二重学習器を組み合わせることで、以前のSOTAよりもLNTの最大5倍の精度ポイントが向上する。
アブレーション実験により,提案手法はリプレイ周波数とバッファサイズが小さくても頑健であり,有効性とサンプル効率の両立が確認できた。
その結果, 連続LLM微調整の強力なベースラインとしてリプレイが確立され, 破滅的忘れを緩和するためのサプライズベース選択と低重量化が相補的成分であることを実証した。
関連論文リスト
- GeRe: Towards Efficient Anti-Forgetting in Continual Learning of LLM via General Samples Replay [21.865853486614466]
汎用サンプルリプレイ(GeRe)は,通常の事前学習テキストを効率的なアンチフォゲッティングに利用するフレームワークである。
我々は,事前コンパイルされた汎用リプレイサンプルの小さな固定セットが,両方の懸念を解決し,全体的な性能を向上しつつ,一般能力を維持できるのに十分であることを示す最初の試みである。
論文 参考訳(メタデータ) (2025-08-06T17:42:22Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Scalable Strategies for Continual Learning with Replay [0.0]
リプレイは継続学習において基礎的な役割を担い、モデルが過去の知識と新しい情報を一致させることができることを示す。
しかし実際には、リプレイは極めて難解であり、ナイーティブな適用では継続学習のコストが2倍になる。
コンソリデーション(consolidation)は、特定のパフォーマンスターゲットに必要なリプレイサンプルを最大55%削減する、リプレイのためのファシックなアプローチである。
次に、連続的な学習環境に合わせたタスク演算のオフシュートであるシーケンシャルマージを提案し、リプレイと組み合わせてうまく動作することを示す。
論文 参考訳(メタデータ) (2025-05-18T18:23:50Z) - SD-LoRA: Scalable Decoupled Low-Rank Adaptation for Class Incremental Learning [73.93639228235622]
基礎モデルによる継続的な学習は、シーケンシャルなタスクに取り組むための事前トレーニング中に得られた豊富な知識を活用するための有望なパラダイムとして現れてきた。
既存のプロンプトベースおよびローランク適応ベース(LoRAベース)メソッドでは、プロンプト/ローラプールの拡張や、以前のタスクのサンプルの保持がしばしば必要である。
クラスインクリメンタル学習のためのスケーラブルデカップリングLoRA(SD-LoRA)を提案する。
論文 参考訳(メタデータ) (2025-01-22T20:00:41Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - LW2G: Learning Whether to Grow for Prompt-based Continual Learning [55.552510632228326]
最近のPromptベースの連続学習は、事前訓練されたモデルで顕著な性能を達成した。
これらのアプローチは、学習中に新しいプロンプトセットを追加してプロンプトプールを拡張し、推論中に正しいセットを選択する。
従来,PCLの性能向上に課題を呈する課題として,タスク指向のプロンプトセットの個別化と選択精度の低さが指摘されてきた。
論文 参考訳(メタデータ) (2024-09-27T15:55:13Z) - Continual Learning with Node-Importance based Adaptive Group Sparse
Regularization [30.23319528662881]
AGS-CL(Adaptive Group Sparsity based Continual Learning)と呼ばれる新しい正規化に基づく連続学習手法を提案する。
提案手法は,各ノードが重要度に基づいて学習する際の2つの罰則を選択的に利用し,各タスクを学習した後に適応的に更新する。
論文 参考訳(メタデータ) (2020-03-30T18:21:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。