論文の概要: Continual Knowledge Adaptation for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.19314v1
- Date: Wed, 22 Oct 2025 07:25:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.238398
- Title: Continual Knowledge Adaptation for Reinforcement Learning
- Title(参考訳): 強化学習のための連続的知識適応
- Authors: Jinwu Hu, Zihao Lian, Zhiquan Wen, Chenghao Li, Guohao Chen, Xutao Wen, Bin Xiao, Mingkui Tan,
- Abstract要約: 強化学習により、エージェントは環境との相互作用を通じて最適な行動を学ぶことができる。
歴史的知識の蓄積と有効活用を可能にする強化学習のための継続的知識適応(CKA-RL)を提案する。
3つのベンチマーク実験により、提案したCKA-RLは最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 37.4253231932861
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning enables agents to learn optimal behaviors through interactions with environments. However, real-world environments are typically non-stationary, requiring agents to continuously adapt to new tasks and changing conditions. Although Continual Reinforcement Learning facilitates learning across multiple tasks, existing methods often suffer from catastrophic forgetting and inefficient knowledge utilization. To address these challenges, we propose Continual Knowledge Adaptation for Reinforcement Learning (CKA-RL), which enables the accumulation and effective utilization of historical knowledge. Specifically, we introduce a Continual Knowledge Adaptation strategy, which involves maintaining a task-specific knowledge vector pool and dynamically using historical knowledge to adapt the agent to new tasks. This process mitigates catastrophic forgetting and enables efficient knowledge transfer across tasks by preserving and adapting critical model parameters. Additionally, we propose an Adaptive Knowledge Merging mechanism that combines similar knowledge vectors to address scalability challenges, reducing memory requirements while ensuring the retention of essential knowledge. Experiments on three benchmarks demonstrate that the proposed CKA-RL outperforms state-of-the-art methods, achieving an improvement of 4.20% in overall performance and 8.02% in forward transfer. The source code is available at https://github.com/Fhujinwu/CKA-RL.
- Abstract(参考訳): 強化学習により、エージェントは環境との相互作用を通じて最適な行動を学ぶことができる。
しかし、現実の環境は一般に非定常的であり、エージェントは新しいタスクに継続的に適応し、条件を変更する必要がある。
継続強化学習は複数のタスクをまたがる学習を容易にするが、既存の手法はしばしば破滅的な忘れ込みと非効率的な知識利用に悩まされる。
これらの課題に対処するために、歴史的知識の蓄積と有効活用を可能にする強化学習のための継続的知識適応(CKA-RL)を提案する。
具体的には、タスク固有の知識ベクトルプールの維持と、エージェントを新しいタスクに適応させるための履歴知識の動的利用を含む、継続的な知識適応戦略を導入する。
このプロセスは破滅的な忘れを緩和し、クリティカルモデルパラメータの保存と適応によってタスク間の効率的な知識伝達を可能にする。
さらに,類似の知識ベクトルを組み合わせた適応的知識統合機構を提案し,拡張性の問題に対処し,メモリ要求を低減し,本質的な知識の維持を確実にする。
3つのベンチマーク実験により、提案されたCKA-RLは最先端の手法よりも優れており、全体的な性能は4.20%向上し、転送速度は8.02%向上した。
ソースコードはhttps://github.com/Fhujinwu/CKA-RLで公開されている。
関連論文リスト
- Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。
オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。
本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [73.34893326181046]
本稿では,効率的なモデル適応によりRAGシステムを強化する自己教師型フレームワークKBAlignを提案する。
私たちのキーとなる洞察は、2つの革新的なメカニズムを通じて、モデルの本質的な能力を知識の整合性に活用することです。
KBAlign は GPT-4 による適応によって得られる性能向上の90%を達成できることを示した。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Beyond Prompt Learning: Continual Adapter for Efficient Rehearsal-Free Continual Learning [22.13331870720021]
C-ADA (Continuous Adapter) という,RFCL タスクに対する超高速学習手法を提案する。
C-ADAは、CALの特定の重みを柔軟に拡張し、各タスクの新たな知識を学び、古い重みを凍結して以前の知識を保存する。
提案手法は,現状のSOTA(State-of-the-art)法よりも優れ,性能とトレーニング速度を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-14T17:40:40Z) - Auto-selected Knowledge Adapters for Lifelong Person Re-identification [54.42307214981537]
Lifelong Person Re-Identificationは、異なる時間と場所にわたる重複しないデータセットから継続的に学習するシステムを必要とする。
リハーサルのない、あるいはリハーサルベースの既存のアプローチは、依然として破滅的な忘れ込みの問題に悩まされている。
本稿では,知識アダプタを採用した新しいフレームワークであるAdalReIDと,生涯学習のためのパラメータフリー自動選択機構を提案する。
論文 参考訳(メタデータ) (2024-05-29T11:42:02Z) - Online Continual Learning via the Knowledge Invariant and Spread-out
Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。
知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。
提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文 参考訳(メタデータ) (2023-02-02T04:03:38Z) - Beyond Not-Forgetting: Continual Learning with Backward Knowledge
Transfer [39.99577526417276]
継続学習(CL)では、エージェントは、新しいタスクと古いタスクの両方の学習性能を向上させることができる。
既存のCL手法の多くは、古いタスクに対する学習モデルの修正を最小化することによって、ニューラルネットワークの破滅的な忘れに対処することに焦点を当てている。
データ再生のない固定容量ニューラルネットワークに対して,バックワードノウルEdge tRansfer (CUBER) を用いた新しいCL法を提案する。
論文 参考訳(メタデータ) (2022-11-01T23:55:51Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。