論文の概要: Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning
- arxiv url: http://arxiv.org/abs/2302.08560v2
- Date: Thu, 22 Jun 2023 20:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 17:15:31.856523
- Title: Dual RL: Unification and New Methods for Reinforcement and Imitation
Learning
- Title(参考訳): デュアルRL:強化と模倣学習のための統一と新しい方法
- Authors: Harshit Sikchi, Qinqing Zheng, Amy Zhang, Scott Niekum
- Abstract要約: 我々は,現在最先端の高度強化学習(RL)アルゴリズムを,統一フレームワークにおける2つのRLアプローチと見なせることを示した。
本稿では、任意のオフポリシーデータを用いた実演模倣学習を可能にする2つのRLフレームワークに簡単な修正を加えた新しい手法を提案する。
- 参考スコア(独自算出の注目度): 29.045223654843113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of reinforcement learning (RL) is to maximize the expected
cumulative return. It has been shown that this objective can be represented by
an optimization problem of the state-action visitation distribution under
linear constraints. The dual problem of this formulation, which we refer to as
dual RL, is unconstrained and easier to optimize. We show that several
state-of-the-art off-policy deep reinforcement learning (RL) algorithms, under
both online and offline, RL and imitation learning (IL) settings, can be viewed
as dual RL approaches in a unified framework. This unification provides a
common ground to study and identify the components that contribute to the
success of these methods and also reveals the common shortcomings across
methods with new insights for improvement. Our analysis shows that prior
off-policy imitation learning methods are based on an unrealistic coverage
assumption and are minimizing a particular f-divergence between the visitation
distributions of the learned policy and the expert policy. We propose a new
method using a simple modification to the dual RL framework that allows for
performant imitation learning with arbitrary off-policy data to obtain
near-expert performance, without learning a discriminator. Further, by framing
a recent SOTA offline RL method XQL in the dual RL framework, we propose
alternative choices to replace the Gumbel regression loss, which achieve
improved performance and resolve the training instability issue of XQL. Project
code and details can be found at this https://hari-sikchi.github.io/dual-rl.
- Abstract(参考訳): 強化学習(RL)の目的は、期待される累積回帰を最大化することである。
この目的を線形制約下での状態行動訪問分布の最適化問題として表現できることが示されている。
この定式化の二重問題は、双対 RL と呼ばれ、制約がなく、最適化が容易である。
我々は,オンラインとオフラインの両方,rlと模倣学習 (il) の設定下で,いくつかの最先端のオフポリシー深層強化学習 (rl) アルゴリズムを統一フレームワークにおける二重rlアプローチと見なすことができることを示す。
この統合は、これらの手法の成功に寄与するコンポーネントを研究・特定するための共通基盤を提供し、また、改善のための新たな洞察を持つメソッド間の共通の欠点を明らかにします。
分析の結果,事前の非政治模倣学習手法は非現実的なカバレッジの仮定に基づいており,学習方針の訪問分布と専門家政策のf分割を最小化していることがわかった。
本稿では, 任意のオフポリシーデータを用いた実演模倣学習を, 判別器を学習することなく, ほぼ専門的な性能を得ることのできる, 二重RLフレームワークの簡単な修正手法を提案する。
さらに、最近のSOTAオフラインRLメソッドXQLをデュアルRLフレームワークでフレーミングすることにより、Gumbel回帰損失を代替する代替選択肢を提案し、パフォーマンスを改善し、XQLのトレーニング不安定性問題を解決する。
プロジェクトコードと詳細は、このhttps://hari-sikchi.github.io/dual-rlで確認できる。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。