論文の概要: Intelligent Switching for Reset-Free RL
- arxiv url: http://arxiv.org/abs/2405.01684v1
- Date: Thu, 2 May 2024 19:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 14:44:38.549235
- Title: Intelligent Switching for Reset-Free RL
- Title(参考訳): リセットフリーRLのためのインテリジェントスイッチング
- Authors: Darshan Patil, Janarthanan Rajendran, Glen Berseth, Sarath Chandar,
- Abstract要約: 実世界では、シミュレーションでエージェントを訓練するのに必要とされる強いエピソードリセットメカニズムは利用できない。
最近の研究は、フォワードエージェントを初期状態に戻す第2の(textitbackward)エージェントを構築することで、学習したリセットでエージェントを訓練することを目的としている。
我々は,エージェントの現在の目標達成に対する自信に基づいて,エージェント間のインテリジェントな切り替えを行う,Intelligently Switching Controller (RISC) による新しいアルゴリズム Reset Free RL を作成する。
- 参考スコア(独自算出の注目度): 19.154045065314243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the real world, the strong episode resetting mechanisms that are needed to train agents in simulation are unavailable. The \textit{resetting} assumption limits the potential of reinforcement learning in the real world, as providing resets to an agent usually requires the creation of additional handcrafted mechanisms or human interventions. Recent work aims to train agents (\textit{forward}) with learned resets by constructing a second (\textit{backward}) agent that returns the forward agent to the initial state. We find that the termination and timing of the transitions between these two agents are crucial for algorithm success. With this in mind, we create a new algorithm, Reset Free RL with Intelligently Switching Controller (RISC) which intelligently switches between the two agents based on the agent's confidence in achieving its current goal. Our new method achieves state-of-the-art performance on several challenging environments for reset-free RL.
- Abstract(参考訳): 実世界では、シミュレーションでエージェントを訓練するのに必要とされる強いエピソードリセットメカニズムは利用できない。
エージェントにリセットを提供するには、通常、手作りのメカニズムや人間の介入を追加する必要がある。
最近の研究は、フォワードエージェントを初期状態に戻す第2の(\textit{backward})エージェントを構築することで、学習したリセットでエージェント(\textit{forward})をトレーニングすることを目的としている。
これら2つのエージェント間の遷移の終了とタイミングは、アルゴリズムの成功に不可欠である。
このことを念頭に、エージェントの現在の目標達成に対する自信に基づいて、2つのエージェントをインテリジェントに切り替える、Intelligently Switching Controller (RISC)によるReset Free RLというアルゴリズムを作成します。
提案手法は,リセット不要なRLのためのいくつかの挑戦環境における最先端性能を実現する。
関連論文リスト
- Gödel Agent: A Self-Referential Agent Framework for Recursive Self-Improvement [117.94654815220404]
G"odel AgentはG"odelマシンにインスパイアされた自己進化型フレームワークである。
G"odel Agentは、パフォーマンス、効率、一般化性において手作業によるエージェントを上回る、継続的な自己改善を実現することができる。
論文 参考訳(メタデータ) (2024-10-06T10:49:40Z) - Self-Supervised Curriculum Generation for Autonomous Reinforcement
Learning without Task-Specific Knowledge [25.168236693829783]
現在の強化学習アルゴリズムを現実世界のシナリオに適用する際の大きなボトルネックは、各エピソード間の環境をリセットする必要があることである。
本稿では,タスク固有の知識を使わずにエージェントの学習進捗に適応したカリキュラムを生成する新しいARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:40:10Z) - When Learning Is Out of Reach, Reset: Generalization in Autonomous
Visuomotor Reinforcement Learning [10.469509984098705]
エピソードトレーニング(英: Episodic training)とは、エージェントの環境が成功や失敗の度にリセットされ、強化学習(RL)エージェントを訓練する際のデファクトスタンダードである。
この研究では、視覚エージェントを構築しながら、リセットを完全に排除するのではなく、最小限にしたいと考えています。
提案手法は, 先行のエピソード, リセットフリー, リセット最小化アプローチよりも高い成功率を達成することができる。
論文 参考訳(メタデータ) (2023-03-30T17:59:26Z) - Provable Reset-free Reinforcement Learning by No-Regret Reduction [13.800970428473134]
本稿では,リセットフリーなRLアルゴリズムを体系的に設計する汎用的ノ・レグレット還元法を提案する。
我々の減少はリセットのないRL問題を2プレーヤゲームに変える。
この2プレイヤーゲームにおいてサブリニア後悔を達成することは、元のRL問題においてサブリニア性能後悔とサブリニア総リセット数の両方を持つポリシーを学ぶことを意味する。
論文 参考訳(メタデータ) (2023-01-06T05:51:53Z) - Automating Reinforcement Learning with Example-based Resets [19.86233948960312]
既存の強化学習アルゴリズムは、エージェントが各エピソードの最後に固定された初期状態分布にリセットするエピソード設定を仮定する。
本稿では,自己指導型リセット学習を行うエージェントを導入することで,従来の強化学習をより大きな自律性に向けて拡張することを提案する。
シミュレーションおよび実世界の連続制御タスクをスクラッチから学習するために本手法を適用し,手動リセットを減らすために,リセットエージェントがうまく学習できることを実証する。
論文 参考訳(メタデータ) (2022-04-05T08:12:42Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Believe What You See: Implicit Constraint Approach for Offline
Multi-Agent Reinforcement Learning [16.707045765042505]
現在のオフラインRLアルゴリズムは、累積外挿誤差のため、マルチエージェントシステムでは有効ではない。
本稿では,外挿誤差を効果的に軽減する新しいオフラインRLアルゴリズム,Implicit Constraint Q-learning (ICQ)を提案する。
実験結果から, 外挿誤差はほぼゼロに減少し, エージェント数に敏感であることが示唆された。
論文 参考訳(メタデータ) (2021-06-07T08:02:31Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Continual Learning of Control Primitives: Skill Discovery via
Reset-Games [128.36174682118488]
エージェントが最小限の監督力でスキルを習得できる方法を示す。
私たちは、エージェントを学習タスクの初期状態の広いセットに"リセット"する必要があるという洞察を利用して、多様な"リセットスキル"を学ぶための自然な設定を提供します。
論文 参考訳(メタデータ) (2020-11-10T18:07:44Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。