論文の概要: Continual Policy Distillation from Distributed Reinforcement Learning Teachers
- arxiv url: http://arxiv.org/abs/2601.22475v1
- Date: Fri, 30 Jan 2026 02:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.171849
- Title: Continual Policy Distillation from Distributed Reinforcement Learning Teachers
- Title(参考訳): 分散強化学習教師からの継続的政策蒸留
- Authors: Yuxuan Li, Qijun He, Mingqi Yuan, Wen-Tse Chen, Jeff Schneider, Jiayu Chen,
- Abstract要約: 継続強化学習は、生涯学習エージェントを開発し、多様なタスクにまたがる知識を継続的に獲得することを目的としている。
これは、安定性と塑性のジレンマを効率的に管理し、新しいタスクに迅速に一般化するために事前の経験を活用する必要がある。
本稿では、CRLを2つの独立したプロセスに分離する新しい教師学生フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.879372764916154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Continual Reinforcement Learning (CRL) aims to develop lifelong learning agents to continuously acquire knowledge across diverse tasks while mitigating catastrophic forgetting. This requires efficiently managing the stability-plasticity dilemma and leveraging prior experience to rapidly generalize to novel tasks. While various enhancement strategies for both aspects have been proposed, achieving scalable performance by directly applying RL to sequential task streams remains challenging. In this paper, we propose a novel teacher-student framework that decouples CRL into two independent processes: training single-task teacher models through distributed RL and continually distilling them into a central generalist model. This design is motivated by the observation that RL excels at solving single tasks, while policy distillation -- a relatively stable supervised learning process -- is well aligned with large foundation models and multi-task learning. Moreover, a mixture-of-experts (MoE) architecture and a replay-based approach are employed to enhance the plasticity and stability of the continual policy distillation process. Extensive experiments on the Meta-World benchmark demonstrate that our framework enables efficient continual RL, recovering over 85% of teacher performance while constraining task-wise forgetting to within 10%.
- Abstract(参考訳): CRL (Continuous Reinforcement Learning) は、生涯学習エージェントを開発し、破滅的な忘れを軽減しつつ、様々なタスクにまたがる知識を継続的に獲得することを目的としている。
これは、安定性と塑性のジレンマを効率的に管理し、新しいタスクに迅速に一般化するために事前の経験を活用する必要がある。
両面でのさまざまな拡張戦略が提案されているが,RLを直接タスクストリームに適用することで,スケーラブルなパフォーマンスを実現することは依然として困難である。
本稿では、CRLを2つの独立したプロセスに分離する新しい教師学生フレームワークを提案する。
この設計は、RLが単一タスクの解決に優れており、政策蒸留(比較的安定した教師付き学習プロセス)は、大きな基礎モデルとマルチタスク学習とよく一致している、という観察に動機づけられている。
さらに, 連続反応蒸留プロセスの可塑性, 安定性を高めるために, エクササイズ (MoE) アーキテクチャとリプレイベースアプローチを採用した。
Meta-Worldベンチマークの大規模な実験により、我々のフレームワークは効率的な連続RLを可能にし、教師のパフォーマンスの85%以上を回復し、タスクワイズを10%以内に制限することを示した。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Causal-Paced Deep Reinforcement Learning [4.728991543521559]
Causal-Paced Deep Reinforcement Learning (CP-DRL)は、相互作用データ近似に基づくタスク間のSCM差を認識するカリキュラム学習フレームワークである。
実証的に、CP-DRLはPoint Massベンチマークの既存のカリキュラム手法よりも優れている。
論文 参考訳(メタデータ) (2025-06-24T20:15:01Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks [110.20297293596005]
大規模言語モデル(LLM)エージェントは、実世界のタスクでマルチターンインタラクションを実行する必要がある。
LLMエージェントを最適化するための既存のマルチターンRLアルゴリズムは、LLMの一般化能力を活用しながら、複数回にわたって効果的なクレジット割り当てを行うことができない。
本稿では,新たなRLアルゴリズムであるSWEET-RLを提案する。
我々の実験は、SWEET-RLがコルベンチにおける成功率と勝利率を、他の最先端マルチターンRLアルゴリズムと比較して6%向上することを示した。
論文 参考訳(メタデータ) (2025-03-19T17:55:08Z) - Towards Large-Scale In-Context Reinforcement Learning by Meta-Training in Randomized Worlds [25.30163649182171]
In-Context Reinforcement Learning (ICRL)により、エージェントは対話的な体験から自動的に、そしてオンザフライで学習することができる。
我々はAnyMDPという手続き的に生成されたマルコフ決定プロセスを提案する。
慎重に設計されたランダム化プロセスを通じて、AnyMDPは比較的低い構造バイアスを維持しながら、大規模に高品質なタスクを生成することができる。
提案手法は,AnyMDPタスクを十分に大規模に行うことで,多目的な文脈内学習パラダイムによる学習では考慮されなかったタスクを一般化できることを実証した。
論文 参考訳(メタデータ) (2025-02-05T03:59:13Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - Knowledge Transfer in Multi-Task Deep Reinforcement Learning for
Continuous Control [65.00425082663146]
連続制御のための知識伝達に基づく多タスク深層強化学習フレームワーク(KTM-DRL)を提案する。
KTM-DRLでは、マルチタスクエージェントがまずオフラインの知識伝達アルゴリズムを利用して、タスク固有の教師の経験から制御ポリシーを素早く学習する。
実験結果は,KTM-DRLとその知識伝達とオンライン学習アルゴリズムの有効性を正当化するとともに,最先端技術よりも大きなマージンによる優位性を示した。
論文 参考訳(メタデータ) (2020-10-15T03:26:47Z) - Self-Paced Deep Reinforcement Learning [42.467323141301826]
カリキュラム強化学習(CRL)は、学習を通して調整された一連のタスクに公開することにより、エージェントの学習速度と安定性を向上させる。
実証的な成功にもかかわらず、CRLのオープンな疑問は、手動設計を避けながら、与えられた強化学習(RL)エージェントのカリキュラムを自動的に生成する方法である。
本稿では,カリキュラム生成を推論問題として解釈し,タスク上の分布を段階的に学習し,対象タスクにアプローチすることで解答を提案する。
このアプローチは、エージェントがペースを制御し、しっかりとした理論的動機を持ち、深いRLアルゴリズムと容易に統合できる自動カリキュラム生成につながる。
論文 参考訳(メタデータ) (2020-04-24T15:48:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。