論文の概要: An Arbitration Control for an Ensemble of Diversified DQN variants in Continual Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.04815v1
- Date: Fri, 05 Sep 2025 05:28:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.484536
- Title: An Arbitration Control for an Ensemble of Diversified DQN variants in Continual Reinforcement Learning
- Title(参考訳): 連続強化学習におけるDQN変種アンサンブルの調停制御
- Authors: Wonseo Jang, Dongjae Kim,
- Abstract要約: RLエージェントのアンサンブル上での調停制御機構を提案する。
連続的な強化学習の文脈において、人間がどのように意思決定を行うかによって動機付けられ、密接に一致している。
静的環境と連続環境の両方において、大幅な性能向上を示す。
- 参考スコア(独自算出の注目度): 7.648784748888187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning (RL) models, despite their efficiency in learning an optimal policy in static environments, easily loses previously learned knowledge (i.e., catastrophic forgetting). It leads RL models to poor performance in continual reinforcement learning (CRL) scenarios. To address this, we present an arbitration control mechanism over an ensemble of RL agents. It is motivated by and closely aligned with how humans make decisions in a CRL context using an arbitration control of multiple RL agents in parallel as observed in the prefrontal cortex. We integrated two key ideas into our model: (1) an ensemble of RLs (i.e., DQN variants) explicitly trained to have diverse value functions and (2) an arbitration control that prioritizes agents with higher reliability (i.e., less error) in recent trials. We propose a framework for CRL, an Arbitration Control for an Ensemble of Diversified DQN variants (ACED-DQN). We demonstrate significant performance improvements in both static and continual environments, supported by empirical evidence showing the effectiveness of arbitration control over diversified DQNs during training. In this work, we introduced a framework that enables RL agents to continuously learn, with inspiration from the human brain.
- Abstract(参考訳): 深層強化学習(Deep reinforcement learning, RL)モデルは、静的環境において最適なポリシーを学習する効率にもかかわらず、学習済みの知識(すなわち破滅的な忘れ物)を簡単に失う。
連続強化学習(CRL)のシナリオでは、RLモデルを低パフォーマンスに導く。
そこで本研究では,RLエージェントのアンサンブル上での調停制御機構を提案する。
これは、前頭前皮質で観察されるように、複数のRLエージェントの仲裁制御を用いて、人間がCRLコンテキストでどのように決定するかによって動機付けられ、密接に一致している。
1) 多様な値関数を持つように明示的に訓練されたRL(DQN変種)のアンサンブルと,2) 信頼性の高いエージェント(すなわち,エラーの少ないエージェント)を優先する調停制御である。
本稿では,多様化DQN変種 (ACED-DQN) のアロトレーション制御であるCRLのフレームワークを提案する。
トレーニング中のDQNの多角化に対する調停制御の有効性を示す実証的証拠により,静的環境と連続環境の両方において顕著な性能改善が示された。
本研究では、人間の脳からインスピレーションを得て、RLエージェントが継続的に学習できるフレームワークを導入した。
関連論文リスト
- RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Robust Gymnasium: A Unified Modular Benchmark for Robust Reinforcement Learning [37.69701394297442]
頑健な強化学習のための統一型モジュラーベンチマークであるRobust-Gymnasiumを紹介する。
すべてのキーRLコンポーネントエージェントの観察された状態と報酬、エージェントのアクション、環境にまたがるさまざまな破壊をサポートする。
コミュニティが現在の方法を評価し、堅牢なRLアルゴリズムの開発を促進するために、オープンソースでユーザフレンドリなツールを提供する。
論文 参考訳(メタデータ) (2025-02-27T00:50:25Z) - ODRL: A Benchmark for Off-Dynamics Reinforcement Learning [59.72217833812439]
我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。
ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。
我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-10-28T05:29:38Z) - Continuous Control with Coarse-to-fine Reinforcement Learning [15.585706638252441]
本稿ではRLエージェントを粗い方法で連続的なアクション空間にズームインするよう訓練するフレームワークを提案する。
我々は、CQN(Coarse-to-fine Q-Network)と呼ばれる、具体的な価値に基づくアルゴリズムをフレームワーク内に導入する。
CQNは、オンライントレーニングの数分後に現実世界の操作タスクを解決するために、しっかりと学習している。
論文 参考訳(メタデータ) (2024-07-10T16:04:08Z) - Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach [2.3020018305241337]
本稿では、位置微分ゲーム理論におけるRRL問題を考慮した最初の提案である。
すなわち、イザックの条件の下では、同じQ-函数をミニマックス方程式とマクシミン・ベルマン方程式の近似解として利用することができる。
本稿ではIssas Deep Q-Networkアルゴリズムについて,他のベースラインRRLやMulti-Agent RLアルゴリズムと比較して,その優位性を示す。
論文 参考訳(メタデータ) (2024-05-03T12:21:43Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Robust Reinforcement Learning as a Stackelberg Game via
Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。
既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。
RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文 参考訳(メタデータ) (2022-02-19T03:44:05Z) - Combining Pessimism with Optimism for Robust and Efficient Model-Based
Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。
信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。
本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-18T16:50:17Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。