論文の概要: SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.12203v1
- Date: Sat, 28 Jan 2023 13:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:29:11.833069
- Title: SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning
- Title(参考訳): saformer: オフライン安全強化学習のための条件列モデリングアプローチ
- Authors: Qin Zhang and Linrui Zhang and Haoran Xu and Li Shen and Bowen Wang
and Yongzhe Chang and Xueqian Wang and Bo Yuan and Dacheng Tao
- Abstract要約: オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
- 参考スコア(独自算出の注目度): 64.33956692265419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline safe RL is of great practical relevance for deploying agents in
real-world applications. However, acquiring constraint-satisfying policies from
the fixed dataset is non-trivial for conventional approaches. Even worse, the
learned constraints are stationary and may become invalid when the online
safety requirement changes. In this paper, we present a novel offline safe RL
approach referred to as SaFormer, which tackles the above issues via
conditional sequence modeling. In contrast to existing sequence models, we
propose cost-related tokens to restrict the action space and a posterior safety
verification to enforce the constraint explicitly. Specifically, SaFormer
performs a two-stage auto-regression conditioned by the maximum remaining cost
to generate feasible candidates. It then filters out unsafe attempts and
executes the optimal action with the highest expected return. Extensive
experiments demonstrate the efficacy of SaFormer featuring (1) competitive
returns with tightened constraint satisfaction; (2) adaptability to the
in-range cost values of the offline data without retraining; (3)
generalizability for constraints beyond the current dataset.
- Abstract(参考訳): オフラインの安全なrlは、現実世界のアプリケーションにエージェントをデプロイするのに非常に実用的です。
しかし、固定データセットから制約満足ポリシーを取得することは、従来のアプローチでは非自明である。
さらに悪いことに、学習された制約は静止しており、オンラインの安全要件が変更されると無効になる可能性がある。
本稿では,条件付きシーケンスモデリングによって上記の問題に取り組むsaformerと呼ばれる,オフラインの安全なrlアプローチを提案する。
既存のシーケンスモデルとは対照的に,アクション空間を制限するためのコスト関連トークンと,制約を明示的に強制するための後続安全検証を提案する。
具体的には、SaFormerは最大残コストで2段階の自動回帰を行い、実現可能な候補を生成する。
その後、安全でない試行をフィルタリングし、最も期待されるリターンで最適なアクションを実行する。
大規模な実験では,(1)厳密な制約満足度を持つ競争的リターン,(2)トレーニングを伴わないオフラインデータの範囲内コスト値への適応性,(3)現在のデータセットを超えた制約に対する一般化性など,SaFormerの有効性が示された。
関連論文リスト
- Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - Constraint-Conditioned Policy Optimization for Versatile Safe
Reinforcement Learning [35.69308654700846]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。
実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。
これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文 参考訳(メタデータ) (2023-10-05T17:39:02Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Safe Policy Improvement in Constrained Markov Decision Processes [10.518340300810504]
本稿では,形式的要件の集合からの報酬形成と安全なポリシー更新という2つの課題を解くことで,合成問題の解決法を提案する。
前者に対しては,タスク仕様に準拠したスカラー報酬信号を定義する自動報酬生成手法を提案する。
後者では,高信頼度保証を伴う安全な方法でポリシーが改善されることを保証するアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-10-20T13:29:32Z) - Recursively Feasible Probabilistic Safe Online Learning with Control
Barrier Functions [63.18590014127461]
本稿では,CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
本研究では,ロバストな安全クリティカルコントローラの実現可能性について検討する。
次に、これらの条件を使って、イベントトリガーによるオンラインデータ収集戦略を考案します。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Conservative and Adaptive Penalty for Model-Based Safe Reinforcement
Learning [31.097091898555725]
実世界の強化学習(RL)エージェントは、報酬目標の最大化に加えて、安全上の制約を満たす必要がある。
モデルベースのRLアルゴリズムは、安全でない現実世界のアクションを減らすことを約束する。
モデルベース安全なRLフレームワークであるCAP(Reserve and Adaptive Penalty)を提案する。
論文 参考訳(メタデータ) (2021-12-14T19:09:14Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。