論文の概要: Demonstration-Guided Continual Reinforcement Learning in Dynamic Environments
- arxiv url: http://arxiv.org/abs/2512.18670v1
- Date: Sun, 21 Dec 2025 10:13:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.447961
- Title: Demonstration-Guided Continual Reinforcement Learning in Dynamic Environments
- Title(参考訳): 動的環境における実証誘導型連続強化学習
- Authors: Xue Yang, Michael Schukat, Junlin Lu, Patrick Mannion, Karl Mason, Enda Howley,
- Abstract要約: 強化学習(RL)は様々な応用において優れているが、基礎となるマルコフ決定プロセスが進化する動的な環境では苦戦している。
本稿では,実証誘導型連続強化学習(DGCRL)を提案する。
2次元ナビゲーションとMuJoCo移動タスクの実験は、その平均性能、知識伝達の強化、忘れの軽減、トレーニング効率を実証している。
- 参考スコア(独自算出の注目度): 8.818727691237656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) excels in various applications but struggles in dynamic environments where the underlying Markov decision process evolves. Continual reinforcement learning (CRL) enables RL agents to continually learn and adapt to new tasks, but balancing stability (preserving prior knowledge) and plasticity (acquiring new knowledge) remains challenging. Existing methods primarily address the stability-plasticity dilemma through mechanisms where past knowledge influences optimization but rarely affects the agent's behavior directly, which may hinder effective knowledge reuse and efficient learning. In contrast, we propose demonstration-guided continual reinforcement learning (DGCRL), which stores prior knowledge in an external, self-evolving demonstration repository that directly guides RL exploration and adaptation. For each task, the agent dynamically selects the most relevant demonstration and follows a curriculum-based strategy to accelerate learning, gradually shifting from demonstration-guided exploration to fully self-exploration. Extensive experiments on 2D navigation and MuJoCo locomotion tasks demonstrate its superior average performance, enhanced knowledge transfer, mitigation of forgetting, and training efficiency. The additional sensitivity analysis and ablation study further validate its effectiveness.
- Abstract(参考訳): 強化学習(RL)は様々な応用において優れているが、基礎となるマルコフ決定プロセスが進化する動的な環境では苦戦している。
連続強化学習(CRL)は、RLエージェントが継続的に学習し、新しいタスクに適応することを可能にするが、安定性(事前知識の保存)と塑性(新しい知識の獲得)のバランスをとることは困難である。
既存の手法は、過去の知識が最適化に影響を及ぼすが、エージェントの行動に直接影響を与えないメカニズムを通じて、安定性と塑性のジレンマに対処する。
一方,実証誘導型連続強化学習(DGCRL)では,事前知識を外部の自己進化型実証リポジトリに格納し,RL探索と適応を直接指導する。
各タスクに対して、エージェントは最も関連性の高いデモンストレーションを動的に選択し、学習を加速するカリキュラムベースの戦略に従い、デモ誘導探索から完全な自己探索へと徐々に移行する。
2DナビゲーションとMuJoCoのロコモーションタスクに関する大規模な実験は、その優れた平均性能、知識伝達の強化、忘れの軽減、トレーニング効率を実証している。
追加の感度分析およびアブレーション研究は、その効果をさらに検証した。
関連論文リスト
- Continual Knowledge Adaptation for Reinforcement Learning [37.4253231932861]
強化学習により、エージェントは環境との相互作用を通じて最適な行動を学ぶことができる。
歴史的知識の蓄積と有効活用を可能にする強化学習のための継続的知識適応(CKA-RL)を提案する。
3つのベンチマーク実験により、提案したCKA-RLは最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-10-22T07:25:41Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - R1-Searcher++: Incentivizing the Dynamic Knowledge Acquisition of LLMs via Reinforcement Learning [83.256752220849]
大きな言語モデル(LLM)は強力だが、静的な知識によって幻覚を起こす傾向がある。
内部および外部の知識ソースを適応的に活用するLLMのトレーニングを目的としたフレームワークであるR1-Searcher++を紹介する。
実験の結果,R1-Searcher++は従来のRAG法や推論法より優れ,効率的な検索が可能であった。
論文 参考訳(メタデータ) (2025-05-22T17:58:26Z) - DSMentor: Enhancing Data Science Agents with Curriculum Learning and Online Knowledge Accumulation [59.79833777420334]
大規模言語モデル(LLM)エージェントは、複雑なデータサイエンス問題を解決するためのコードを生成する上で、有望な性能を示している。
我々は, LLMエージェントの性能を向上させるために, DSMentorと呼ばれる新しい推論時間最適化フレームワークを開発した。
我々の研究は、推論中に知識を蓄積し活用するための効果的な戦略を開発することの重要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T10:16:21Z) - A Method for Fast Autonomy Transfer in Reinforcement Learning [3.8049020806504967]
本稿では、迅速な自律移行を容易にするために、新しい強化学習(RL)戦略を提案する。
大規模なリトレーニングや微調整を必要とする従来の手法とは異なり、我々の手法は既存の知識を統合し、RLエージェントが新しい設定に迅速に適応できるようにする。
論文 参考訳(メタデータ) (2024-07-29T23:48:07Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Variance-Covariance Regularization Improves Representation Learning [28.341622247252705]
我々は,分散共分散正規化(VCReg)を導入して,自己教師型学習規則化手法を教師型学習コンテキストに適用する。
我々は、VCRegが画像やビデオの転送学習を大幅に強化し、多数のタスクやデータセットで最先端のパフォーマンスを達成することを実証した。
要約すると、VCRegは、転送学習を大幅に進歩させ、勾配飢餓、神経崩壊、特徴伝達可能性の間の接続を強調する、普遍的に適用可能な正規化フレームワークを提供する。
論文 参考訳(メタデータ) (2023-06-23T05:01:02Z) - KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent
Reinforcement Learning [16.167201058368303]
深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。
この問題を解決するには、歴史的経験の効率的な活用が不可欠です。
知識再利用のための「KnowRU」という手法を提案する。
論文 参考訳(メタデータ) (2021-03-27T12:38:01Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。