論文の概要: Adversarially Trained Actor Critic for offline CMDPs
- arxiv url: http://arxiv.org/abs/2401.00629v1
- Date: Mon, 1 Jan 2024 01:44:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 16:32:47.998993
- Title: Adversarially Trained Actor Critic for offline CMDPs
- Title(参考訳): オフラインcmdpに対する敵意に満ちた俳優批判
- Authors: Honghao Wei, Xiyue Peng, Xin Liu, Arnob Ghosh
- Abstract要約: オフライン強化学習(RL)のための SATAC (Safe Adversarial Trained Actor Critic) アルゴリズムを提案する。
我々のフレームワークは、理論的保証と堅牢なディープRL実装の両方を提供します。
我々はSATACが同一レベルの安全性を維持しつつ行動方針を上回り得ることを実証した。
- 参考スコア(独自算出の注目度): 10.861449694255137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a Safe Adversarial Trained Actor Critic (SATAC) algorithm for
offline reinforcement learning (RL) with general function approximation in the
presence of limited data coverage. SATAC operates as a two-player Stackelberg
game featuring a refined objective function. The actor (leader player)
optimizes the policy against two adversarially trained value critics (follower
players), who focus on scenarios where the actor's performance is inferior to
the behavior policy. Our framework provides both theoretical guarantees and a
robust deep-RL implementation. Theoretically, we demonstrate that when the
actor employs a no-regret optimization oracle, SATAC achieves two guarantees:
(i) For the first time in the offline RL setting, we establish that SATAC can
produce a policy that outperforms the behavior policy while maintaining the
same level of safety, which is critical to designing an algorithm for offline
RL. (ii) We demonstrate that the algorithm guarantees policy improvement across
a broad range of hyperparameters, indicating its practical robustness.
Additionally, we offer a practical version of SATAC and compare it with
existing state-of-the-art offline safe-RL algorithms in continuous control
environments. SATAC outperforms all baselines across a range of tasks, thus
validating the theoretical performance.
- Abstract(参考訳): 本稿では,データカバレッジに制限がある場合の一般関数近似を用いたオフライン強化学習(RL)のためのSATACアルゴリズムを提案する。
SATACは2人プレイのStackelbergゲームとして動作する。
俳優(リーダープレーヤー)は、演技が行動方針に劣るシナリオに焦点を当てた2人の敵に訓練された価値批評家(フォロワープレーヤー)に対するポリシーを最適化する。
我々のフレームワークは、理論的保証と堅牢なディープRL実装の両方を提供します。
理論的には、アクターが非regret最適化オラクルを使用する場合、SATACは2つの保証を達成する。
i) オフラインのRL設定において,SATACが同一レベルの安全性を維持しながら行動ポリシーを上回り,オフラインのRLのためのアルゴリズムの設計に欠かせない政策を創出できることが確認された。
(ii)このアルゴリズムは,広範囲のハイパーパラメータにまたがってポリシー改善を保証し,実用的なロバスト性を示す。
さらに、satacの実用版を提供し、継続的な制御環境で既存の最先端オフラインセーフrlアルゴリズムと比較する。
SATACは様々なタスクで全てのベースラインを上回り、理論的性能を検証する。
関連論文リスト
- Stepwise Alignment for Constrained Language Model Policy Optimization [12.986006070964772]
大規模言語モデル(LLM)を用いたAIシステムの現実的な応用には、安全性と信頼性が不可欠である
本稿では、安全制約下での報酬を最大化するために、言語モデルポリシーの最適化問題として、人間の価値アライメントを定式化する。
SACPOの背景にある重要な考え方の1つは、報酬と安全を取り入れた最適な政策は、報酬に整合した政策から直接得ることができるということである。
論文 参考訳(メタデータ) (2024-04-17T03:44:58Z) - Safety Optimized Reinforcement Learning via Multi-Objective Policy
Optimization [3.425378723819911]
セーフ強化学習(Safe reinforcement learning, Safe RL)とは、RLアルゴリズムが制約を犯すのを防ぐ技術である。
本稿では,多目的ポリシー最適化フレームワークに基づく新しいモデルフリーなSafe RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T08:58:38Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Iterative Reachability Estimation for Safe Reinforcement Learning [23.942701020636882]
安全制約付き強化学習(RL)環境のための新しいフレームワークRESPO(Reachability Estimation for Safe Policy Optimization)を提案する。
違反のないポリシーが存在する現実的な環境では、永続的な安全を維持しながら報酬を最適化します。
安全ガイム, PyBullet, および MuJoCo を用いた安全RL環境の多種多様な構成について, 提案手法の評価を行った。
論文 参考訳(メタデータ) (2023-09-24T02:36:42Z) - Safe Reinforcement Learning with Dual Robustness [10.455148541147796]
強化学習(RL)エージェントは敵の障害に対して脆弱である。
安全なRLとロバストなRLを統合するための体系的フレームワークを提案する。
また,デュアル・ロバスト・アクター・クリティック(DRAC)と呼ばれる実装のためのディープRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-09-13T09:34:21Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Soft Actor-Critic with Cross-Entropy Policy Optimization [0.45687771576879593]
クロスエントロピーポリシー最適化(SAC-CEPO)を用いたソフトアクタ臨界法を提案する。
SAC-CEPOは、CEM(Cross-Entropy Method)を使用して、SACのポリシーネットワークを最適化する。
SAC-CEPOは元のSACと競合する性能を示す。
論文 参考訳(メタデータ) (2021-12-21T11:38:12Z) - Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety
Constraints in Finite MDPs [71.47895794305883]
オフライン強化学習環境における制約下での安全政策改善(SPI)の問題について検討する。
本稿では,異なる報酬信号に対するトレードオフを扱うアルゴリズムのユーザの好みを考慮した,このRL設定のためのSPIを提案する。
論文 参考訳(メタデータ) (2021-05-31T21:04:21Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。