論文の概要: Scalable Strategies for Continual Learning with Replay
- arxiv url: http://arxiv.org/abs/2505.12512v1
- Date: Sun, 18 May 2025 18:23:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.277791
- Title: Scalable Strategies for Continual Learning with Replay
- Title(参考訳): リプレイによる継続的学習のためのスケーラブルな戦略
- Authors: Truman Hickok,
- Abstract要約: リプレイは継続学習において基礎的な役割を担い、モデルが過去の知識と新しい情報を一致させることができることを示す。
しかし実際には、リプレイは極めて難解であり、ナイーティブな適用では継続学習のコストが2倍になる。
コンソリデーション(consolidation)は、特定のパフォーマンスターゲットに必要なリプレイサンプルを最大55%削減する、リプレイのためのファシックなアプローチである。
次に、連続的な学習環境に合わせたタスク演算のオフシュートであるシーケンシャルマージを提案し、リプレイと組み合わせてうまく動作することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Future deep learning models will be distinguished by systems that perpetually learn through interaction, imagination, and cooperation, blurring the line between training and inference. This makes continual learning a critical challenge, as methods that efficiently maximize bidirectional transfer across learning trajectories will be essential. Replay is on track to play a foundational role in continual learning, allowing models to directly reconcile new information with past knowledge. In practice, however, replay is quite unscalable, doubling the cost of continual learning when applied naively. Moreover, the continual learning literature has not fully synchronized with the multi-task fine-tuning literature, having not fully integrated highly scalable techniques like model merging and low rank adaptation into a replay-enabled toolset that can produce a unified model in the face of many sequential tasks. In this paper, we begin by applying and analyzing low rank adaptation in a continual learning setting. Next, we introduce consolidation, a phasic approach to replay which leads to up to 55\% less replay samples being needed for a given performance target. Then, we propose sequential merging, an offshoot of task arithmetic which is tailored to the continual learning setting and is shown to work well in combination with replay. Finally, we demonstrate that the developed strategies can operate synergistically, resulting in a highly scalable toolset that outperforms standalone variants.
- Abstract(参考訳): 未来のディープラーニングモデルは、相互作用、想像力、協力を通じて永久に学習し、トレーニングと推論の境界を曖昧にするシステムによって区別される。
これにより、学習軌跡間の双方向移動を効率的に最大化する手法が不可欠となるため、継続的な学習が重要な課題となる。
リプレイは継続的な学習において基礎的な役割を担い、モデルが過去の知識と直接新しい情報を調整できるようにする。
しかし実際には、リプレイは極めて難解であり、ナイーティブな適用では継続学習のコストが2倍になる。
さらに、連続学習文学はマルチタスクの微調整文学と完全には同期せず、モデルマージや低ランク適応といった高度にスケーラブルな手法を、多くの逐次タスクに直面した統一モデルを生成するリプレイ可能なツールセットに統合していない。
本稿では,連続学習環境における低階適応の適用と解析から始める。
次に、コンソリデーション(consolidation)という、リプレイに対するファシックなアプローチを導入し、特定のパフォーマンスターゲットに必要なリプレイサンプルを最大で55%削減する。
次に、連続的な学習環境に合わせたタスク演算のオフシュートであるシーケンシャルマージを提案し、リプレイと組み合わせてうまく動作することを示す。
最後に、開発戦略が相乗的に動作できることを示し、結果として、スタンドアロンのバリエーションよりも優れた、高度にスケーラブルなツールセットを実現する。
関連論文リスト
- STAR: Stability-Inducing Weight Perturbation for Continual Learning [4.623295991242981]
継続的学習における重要な課題は、モデルが新しいタスクを学ぶために更新されると、破滅的な忘れがちになることです。
継続学習中の忘れを軽減するための一般的なアプローチは、事前に確認されたサンプルの小さなバッファを保持し、トレーニング中にそれらを再生することである。
モデル予測のKL偏差を低減させる,最悪のパラメータ摂動を利用した新しい損失関数STARを提案する。
論文 参考訳(メタデータ) (2025-03-03T14:32:03Z) - Integrating Curricula with Replays: Its Effects on Continual Learning [3.2489082010225494]
人間は、新しいスキルや知識を得る際に、カリキュラムを使って学習とレビューを行う。
目標は、人間の学習プロセスをエミュレートし、知識の保持を改善し、学習の伝達を容易にすることである。
継続学習エージェントにおける既存のリプレイ手法には、以前のタスクからのデータのランダムな選択と順序付けが含まれる。
論文 参考訳(メタデータ) (2023-07-08T14:14:55Z) - PIVOT: Prompting for Video Continual Learning [50.80141083993668]
PIVOTは、画像領域から事前学習したモデルにおける広範な知識を活用する新しい手法である。
実験の結果,PIVOTは20タスクのアクティビティネット設定において,最先端の手法を27%向上することがわかった。
論文 参考訳(メタデータ) (2022-12-09T13:22:27Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Learning Invariant Representation for Continual Learning [5.979373021392084]
継続的学習の重要な課題は、エージェントが新しいタスクに直面したときに、以前に学んだタスクを壊滅的に忘れることです。
連続学習のための学習不変表現(IRCL)という新しい擬似リハーサル法を提案する。
共有不変表現を分離することは、タスクのシーケンスを継続的に学習するのに役立つ。
論文 参考訳(メタデータ) (2021-01-15T15:12:51Z) - Meta-Learning with Sparse Experience Replay for Lifelong Language
Learning [26.296412053816233]
本稿では,スパース体験を再現したメタラーニングに基づく言語タスクの生涯学習のための新しいアプローチを提案する。
本研究では,タスクのストリーム上で1回のパスを実行するという現実的な設定の下で,生涯のテキスト分類と関係抽出に関する最先端結果を得る。
論文 参考訳(メタデータ) (2020-09-10T14:36:38Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。