論文の概要: What Matters for Batch Online Reinforcement Learning in Robotics?
- arxiv url: http://arxiv.org/abs/2505.08078v1
- Date: Mon, 12 May 2025 21:24:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.338117
- Title: What Matters for Batch Online Reinforcement Learning in Robotics?
- Title(参考訳): ロボットにおけるオンライン強化学習のバッチ化には何が重要か?
- Authors: Perry Dong, Suvir Mirchandani, Dorsa Sadigh, Chelsea Finn,
- Abstract要約: 政策改善のために、自律的に収集された大量のデータから学習できることは、真にスケーラブルなロボット学習を可能にするという約束を支えている。
これまで、オンラインRL問題に模倣学習とフィルタ模倣学習を適用してきた。
これらの軸が自律的なデータ量でパフォーマンスとスケーリングにどのように影響するかを分析します。
- 参考スコア(独自算出の注目度): 65.06558240091758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to learn from large batches of autonomously collected data for policy improvement -- a paradigm we refer to as batch online reinforcement learning -- holds the promise of enabling truly scalable robot learning by significantly reducing the need for human effort of data collection while getting benefits from self-improvement. Yet, despite the promise of this paradigm, it remains challenging to achieve due to algorithms not being able to learn effectively from the autonomous data. For example, prior works have applied imitation learning and filtered imitation learning methods to the batch online RL problem, but these algorithms often fail to efficiently improve from the autonomously collected data or converge quickly to a suboptimal point. This raises the question of what matters for effective batch online RL in robotics. Motivated by this question, we perform a systematic empirical study of three axes -- (i) algorithm class, (ii) policy extraction methods, and (iii) policy expressivity -- and analyze how these axes affect performance and scaling with the amount of autonomous data. Through our analysis, we make several observations. First, we observe that the use of Q-functions to guide batch online RL significantly improves performance over imitation-based methods. Building on this, we show that an implicit method of policy extraction -- via choosing the best action in the distribution of the policy -- is necessary over traditional policy extraction methods from offline RL. Next, we show that an expressive policy class is preferred over less expressive policy classes. Based on this analysis, we propose a general recipe for effective batch online RL. We then show a simple addition to the recipe of using temporally-correlated noise to obtain more diversity results in further performance gains. Our recipe obtains significantly better performance and scaling compared to prior methods.
- Abstract(参考訳): 政策改善のための、自律的に収集された大量のデータから学ぶ能力 — バッチオンライン強化学習と呼ばれるパラダイム — は、データ収集の人的労力を大幅に削減し、自己改善の恩恵を受けながら、真にスケーラブルなロボット学習を実現するという約束を達成している。
しかし、このパラダイムの約束にもかかわらず、アルゴリズムが自律データから効果的に学習できないため、達成することは依然として困難である。
例えば、以前の研究では、オンラインRL問題のバッチに模倣学習とフィルタリングされた模倣学習手法を適用していたが、これらのアルゴリズムは、自律的に収集されたデータから効率よく改善したり、最適化された点に素早く収束することができないことが多い。
これにより、ロボット工学におけるオンラインRLの効果的なバッチ化には何が重要かという疑問が持ち上がる。
この疑問に触発され、我々は3つの軸の体系的な経験的研究を行う。
(i)アルゴリズムクラス
二 政策抽出方法、及び
3) 政策表現性 -- と、これらの軸が自律的なデータの量でパフォーマンスとスケーリングにどのように影響するかを分析します。
分析を通して、我々はいくつかの観察を行った。
まず、バッチオンラインRLを誘導するQ関数の使用により、模倣手法よりも性能が大幅に向上することが観察された。
これに基づいて, オフラインRLからの従来の政策抽出手法よりも, 政策の分散における最善の行動を選択することで, 政策抽出の暗黙的手法が不可欠であることを示す。
次に,表現力の低い政策クラスよりも表現力の低い政策クラスが望ましいことを示す。
そこで本研究では,オンラインRLを効果的にバッチ化するための一般的なレシピを提案する。
次に、時間的相関ノイズを用いて、より多様性のある結果を得ることにより、さらなるパフォーマンス向上を実現する方法を提案する。
提案手法は,従来の方法に比べて性能とスケーリングが著しく向上する。
関連論文リスト
- Efficient Preference-based Reinforcement Learning via Aligned Experience Estimation [37.36913210031282]
評価に基づく強化学習(PbRL)は、報酬工学を使わずにトレーニングエージェントに優れた能力を示す。
ラベルの平滑化とポリシー正則化を併用した効率的なPbRL法であるSEERを提案する。
論文 参考訳(メタデータ) (2024-05-29T01:49:20Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Robot Reinforcement Learning with Uncertainty-Guided Human
Expert Sampling [11.751910133386254]
バッチ(オフライン)強化学習の最近の進歩は、利用可能なオフラインデータから学習する上で有望な結果を示している。
本研究では,不確実性推定を用いて人間の実演データを注入する手法を提案する。
実験の結果,本手法は,専門家データと準最適エージェントから収集したデータを組み合わせる方法に比べて,よりサンプル効率が高いことがわかった。
論文 参考訳(メタデータ) (2022-12-16T01:41:59Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。