論文の概要: Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning
- arxiv url: http://arxiv.org/abs/2302.08560v3
- Date: Fri, 26 Jan 2024 16:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 18:46:46.928983
- Title: Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning
- Title(参考訳): デュアルRL:強化と模倣学習のための統一と新しい方法
- Authors: Harshit Sikchi, Qinqing Zheng, Amy Zhang, Scott Niekum
- Abstract要約: 我々はまず,共有構造を持つ2つのRLアプローチのインスタンスとして,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムをいくつか導入した。
本稿では、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法であるReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、Gumbel回帰損失に対して代替的な選択肢を提供する新しい方法f-DVLを提案する。
- 参考スコア(独自算出の注目度): 26.59374102005998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of reinforcement learning (RL) is to find a policy that maximizes
the expected cumulative return. It has been shown that this objective can be
represented as an optimization problem of state-action visitation distribution
under linear constraints. The dual problem of this formulation, which we refer
to as dual RL, is unconstrained and easier to optimize. In this work, we first
cast several state-of-the-art offline RL and offline imitation learning (IL)
algorithms as instances of dual RL approaches with shared structures. Such
unification allows us to identify the root cause of the shortcomings of prior
methods. For offline IL, our analysis shows that prior methods are based on a
restrictive coverage assumption that greatly limits their performance in
practice. To fix this limitation, we propose a new discriminator-free method
ReCOIL that learns to imitate from arbitrary off-policy data to obtain
near-expert performance. For offline RL, our analysis frames a recent offline
RL method XQL in the dual framework, and we further propose a new method f-DVL
that provides alternative choices to the Gumbel regression loss that fixes the
known training instability issue of XQL. The performance improvements by both
of our proposed methods, ReCOIL and f-DVL, in IL and RL are validated on an
extensive suite of simulated robot locomotion and manipulation tasks. Project
code and details can be found at this https://hari-sikchi.github.io/dual-rl.
- Abstract(参考訳): 強化学習(RL)の目的は、期待される累積回帰を最大化する政策を見つけることである。
この目的を線形制約下での状態行動訪問分布の最適化問題として表現できることが示されている。
この定式化の二重問題は、双対 RL と呼ばれ、制約がなく、最適化が容易である。
本研究では,共有構造を持つ2つのRLアプローチの例として,最先端のオフラインRLとオフライン模倣学習(IL)アルゴリズムを最初に導入した。
このような統一により、先行手法の欠点の根本原因を特定できる。
オフライン IL では,従来の手法は,実際の性能を大幅に制限する限定的なカバレッジ仮定に基づいている。
この制限を解消するために、任意のオフポリシーデータから模倣を学習し、ほぼ専門的な性能を得る新しい差別化手法ReCOILを提案する。
オフラインRLでは、最近のオフラインRLメソッドXQLをデュアルフレームワークにフレーム化し、さらに、既知のトレーニング不安定性問題を修正するGumbel回帰損失に代替的な選択肢を提供する新しい方法f-DVLを提案する。
提案手法である ReCOIL と f-DVL による IL と RL の性能改善は,ロボットの動作と操作をシミュレーションした広範囲なスイートで検証した。
プロジェクトコードと詳細は、このhttps://hari-sikchi.github.io/dual-rlで確認できる。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。