論文の概要: Imitation from Arbitrary Experience: A Dual Unification of Reinforcement
and Imitation Learning Methods
- arxiv url: http://arxiv.org/abs/2302.08560v1
- Date: Thu, 16 Feb 2023 20:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:41:37.992144
- Title: Imitation from Arbitrary Experience: A Dual Unification of Reinforcement
and Imitation Learning Methods
- Title(参考訳): 任意経験からの模倣:強化と模倣学習の二重統一
- Authors: Harshit Sikchi, Amy Zhang, Scott Niekum
- Abstract要約: 我々は、最先端の深層RLアルゴリズムを、統一されたフレームワークにおける双対RLアプローチと見なせることを示した。
そこで本稿では,任意のオフポリシーデータを用いた模倣学習により,ほぼ専門的な性能が得られるような2つのフレームワークを簡易に修正した新しい手法を提案する。
- 参考スコア(独自算出の注目度): 27.648576652481854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is well known that Reinforcement Learning (RL) can be formulated as a
convex program with linear constraints. The dual form of this formulation is
unconstrained, which we refer to as dual RL, and can leverage preexisting tools
from convex optimization to improve the learning performance of RL agents. We
show that several state-of-the-art deep RL algorithms (in online, offline, and
imitation settings) can be viewed as dual RL approaches in a unified framework.
This unification calls for the methods to be studied on common ground, so as to
identify the components that actually contribute to the success of these
methods. Our unification also reveals that prior off-policy imitation learning
methods in the dual space are based on an unrealistic coverage assumption and
are restricted to matching a particular f-divergence. We propose a new method
using a simple modification to the dual framework that allows for imitation
learning with arbitrary off-policy data to obtain near-expert performance.
- Abstract(参考訳): 強化学習(RL)が線形制約付き凸プログラムとして定式化できることはよく知られている。
この定式化の二重形式は非制約であり、これは二重RLと呼ばれ、凸最適化から既存のツールを活用してRLエージェントの学習性能を向上させることができる。
いくつかの最先端のディープRLアルゴリズム(オンライン、オフライン、模倣設定)が統一されたフレームワークにおいてデュアルRLアプローチとみなせることを示す。
この統一は、これらの手法の成功に実際に寄与するコンポーネントを特定するために、共通の基盤で研究されるべき方法を要求する。
我々の統一はまた、双対空間における事前のオフ・ポリティカル模倣学習法が非現実的なカバレッジ仮定に基づいており、特定のf-ダイバージェンスに適合することに限定されていることも明かしている。
本稿では,任意のオフポリシーデータを用いた模倣学習を可能にする2つのフレームワークの簡単な修正を用いた新しい手法を提案する。
関連論文リスト
- More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Decoupled Prioritized Resampling for Offline RL [120.49021589395005]
オフライン強化学習のためのオフライン優先体験再生(OPER)を提案する。
OPERは、高度に反転する遷移を優先するように設計された優先順位関数のクラスを備えており、トレーニング中により頻繁に訪問することができる。
優先順位関数のクラスは行動ポリシーの改善を誘導し、この改善されたポリシーに制約された場合、ポリシー制約付きオフラインRLアルゴリズムによりより良い解が得られる可能性が示唆された。
論文 参考訳(メタデータ) (2023-06-08T17:56:46Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Boosting Offline Reinforcement Learning with Residual Generative
Modeling [27.50950972741753]
オフライン強化学習(RL)は、オンライン探索なしでオフライン体験を記録して、ほぼ最適ポリシーを学習しようとする。
提案手法は,異なるベンチマークデータセットにおいて,より正確なポリシー近似を学習可能であることを示す。
さらに,提案手法は,マルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームHonor of Kingsにおいて,複雑な制御タスクにおいて,より競争力のあるAIエージェントを学習可能であることを示す。
論文 参考訳(メタデータ) (2021-06-19T03:41:14Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。