論文の概要: Adversarially Trained Actor Critic for offline CMDPs
- arxiv url: http://arxiv.org/abs/2401.00629v1
- Date: Mon, 1 Jan 2024 01:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:32:47.998993
- Title: Adversarially Trained Actor Critic for offline CMDPs
- Title(参考訳): オフラインcmdpに対する敵意に満ちた俳優批判
- Authors: Honghao Wei, Xiyue Peng, Xin Liu, Arnob Ghosh
- Abstract要約: オフライン強化学習(RL)のための SATAC (Safe Adversarial Trained Actor Critic) アルゴリズムを提案する。
我々のフレームワークは、理論的保証と堅牢なディープRL実装の両方を提供します。
我々はSATACが同一レベルの安全性を維持しつつ行動方針を上回り得ることを実証した。
- 参考スコア(独自算出の注目度): 10.861449694255137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Safe Adversarial Trained Actor Critic (SATAC) algorithm for
offline reinforcement learning (RL) with general function approximation in the
presence of limited data coverage. SATAC operates as a two-player Stackelberg
game featuring a refined objective function. The actor (leader player)
optimizes the policy against two adversarially trained value critics (follower
players), who focus on scenarios where the actor's performance is inferior to
the behavior policy. Our framework provides both theoretical guarantees and a
robust deep-RL implementation. Theoretically, we demonstrate that when the
actor employs a no-regret optimization oracle, SATAC achieves two guarantees:
(i) For the first time in the offline RL setting, we establish that SATAC can
produce a policy that outperforms the behavior policy while maintaining the
same level of safety, which is critical to designing an algorithm for offline
RL. (ii) We demonstrate that the algorithm guarantees policy improvement across
a broad range of hyperparameters, indicating its practical robustness.
Additionally, we offer a practical version of SATAC and compare it with
existing state-of-the-art offline safe-RL algorithms in continuous control
environments. SATAC outperforms all baselines across a range of tasks, thus
validating the theoretical performance.
- Abstract(参考訳): 本稿では,データカバレッジに制限がある場合の一般関数近似を用いたオフライン強化学習(RL)のためのSATACアルゴリズムを提案する。
SATACは2人プレイのStackelbergゲームとして動作する。
俳優(リーダープレーヤー)は、演技が行動方針に劣るシナリオに焦点を当てた2人の敵に訓練された価値批評家(フォロワープレーヤー)に対するポリシーを最適化する。
我々のフレームワークは、理論的保証と堅牢なディープRL実装の両方を提供します。
理論的には、アクターが非regret最適化オラクルを使用する場合、SATACは2つの保証を達成する。
i) オフラインのRL設定において,SATACが同一レベルの安全性を維持しながら行動ポリシーを上回り,オフラインのRLのためのアルゴリズムの設計に欠かせない政策を創出できることが確認された。
(ii)このアルゴリズムは,広範囲のハイパーパラメータにまたがってポリシー改善を保証し,実用的なロバスト性を示す。
さらに、satacの実用版を提供し、継続的な制御環境で既存の最先端オフラインセーフrlアルゴリズムと比較する。
SATACは様々なタスクで全てのベースラインを上回り、理論的性能を検証する。
関連論文リスト
- Offline Goal-Conditioned Reinforcement Learning for Safety-Critical
Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。
本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-04T05:20:57Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - Efficient Action Robust Reinforcement Learning with Probabilistic Policy
Execution Uncertainty [43.55450683502937]
本稿では,確率的政策実行の不確実性を考慮したアクションロバストなRLに着目した。
我々は,確率的政策実行の不確実性を伴う行動堅牢なMDPに対する最適政策の存在を確立する。
我々はまた、最適な後悔とサンプルの複雑さを最小限に抑えるAction Robust Reinforcement Learning with Certificates (ARRLC)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-07-15T00:26:51Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Adversarially Trained Actor Critic for Offline Reinforcement Learning [42.42451519801851]
ATACは、データカバレッジが不十分な状態でオフラインで強化学習を行うための新しいモデルなしアルゴリズムである。
D4RLベンチマークでは、ATACは一連の連続制御タスクにおいて、最先端のオフラインRLアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-02-05T01:02:46Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。