論文の概要: Adversarially Trained Actor Critic for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2202.02446v1
- Date: Sat, 5 Feb 2022 01:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:04:18.184025
- Title: Adversarially Trained Actor Critic for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための逆学習アクター批判
- Authors: Ching-An Cheng, Tengyang Xie, Nan Jiang, Alekh Agarwal
- Abstract要約: ATACは、データカバレッジが不十分な状態でオフラインで強化学習を行うための新しいモデルなしアルゴリズムである。
D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて、最先端のオフラインRLアルゴリズムを一貫して上回っている。
- 参考スコア(独自算出の注目度): 42.42451519801851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Adversarially Trained Actor Critic (ATAC), a new model-free
algorithm for offline reinforcement learning under insufficient data coverage,
based on a two-player Stackelberg game framing of offline RL: A policy actor
competes against an adversarially trained value critic, who finds
data-consistent scenarios where the actor is inferior to the data-collection
behavior policy. We prove that, when the actor attains no regret in the
two-player game, running ATAC produces a policy that provably 1) outperforms
the behavior policy over a wide range of hyperparameters, and 2) competes with
the best policy covered by data with appropriately chosen hyperparameters.
Compared with existing works, notably our framework offers both theoretical
guarantees for general function approximation and a deep RL implementation
scalable to complex environments and large datasets. In the D4RL benchmark,
ATAC consistently outperforms state-of-the-art offline RL algorithms on a range
of continuous control tasks
- Abstract(参考訳): 我々は,オフラインrlの2人のプレイヤーによるstackelbergゲームに基づく,データカバレッジが不十分なオフライン強化学習のためのモデルフリーな新アルゴリズムであるadversarially training actor critic (atac)を提案する。
我々は、俳優が2人プレイのゲームで後悔を得られない場合、atacを実行することは確実にポリシーを生み出すことを証明します。
1)広範囲のハイパーパラメータに対して行動方針を上回っていること、及び
2) 適切に選択されたハイパーパラメータによるデータでカバーされる最善のポリシーと競合する。
既存の研究と比較して、我々のフレームワークは一般的な関数近似の理論的保証と、複雑な環境や大規模なデータセットにスケーラブルな深いRL実装の両方を提供している。
D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて最先端のオフラインRLアルゴリズムより一貫して優れている。
関連論文リスト
- Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone [72.17534881026995]
ポリシーに依存しないRL(PA-RL)と呼ばれるオフラインおよびオンラインの微調整手法を開発する。
オンラインRLファインチューニングアルゴリズムであるCal-QLを用いて、7BジェネラリストロボットポリシーであるOpenVLAのファインチューニングに成功した最初の結果を示す。
論文 参考訳(メタデータ) (2024-12-09T17:28:03Z) - Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL [42.57662196581823]
オフ・ポリティクス強化学習(RL)は、多くの複雑な現実世界のタスクに取り組むことで顕著な成功を収めた。
既存のRLアルゴリズムの多くは、リプレイバッファ内の情報を最大限活用できない。
OBAC(Offline-Boosted Actor-Critic)は、モデルのないオンラインRLフレームワークで、優れたオフラインポリシーをエレガントに識別する。
論文 参考訳(メタデータ) (2024-05-28T18:38:46Z) - Offline Reinforcement Learning with Behavioral Supervisor Tuning [0.0]
本稿では、不確実性モデルをトレーニングし、それを用いてポリシーをガイドし、データセットサポート内のアクションを選択するアルゴリズムTD3-BSTを提案する。
TD3-BSTは、以前の方法と比較してオフラインデータセットからより効果的なポリシーを学習でき、データセットごとのチューニングを必要とせずに、挑戦的なベンチマークで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-25T08:22:47Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - POPO: Pessimistic Offline Policy Optimization [6.122342691982727]
オフポリシーRLメソッドが、バリュー関数ビューからオフライン設定で学習できない理由について検討する。
悲観的オフライン政策最適化(POPO)を提案する。これは悲観的価値関数を学習し、強い政策を得る。
POPOは驚くほどよく機能し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-12-26T06:24:34Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。