論文の概要: SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.12203v1
- Date: Sat, 28 Jan 2023 13:57:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 18:29:11.833069
- Title: SaFormer: A Conditional Sequence Modeling Approach to Offline Safe
Reinforcement Learning
- Title(参考訳): saformer: オフライン安全強化学習のための条件列モデリングアプローチ
- Authors: Qin Zhang and Linrui Zhang and Haoran Xu and Li Shen and Bowen Wang
and Yongzhe Chang and Xueqian Wang and Bo Yuan and Dacheng Tao
- Abstract要約: オフラインセーフなRLは、現実世界のアプリケーションにエージェントをデプロイする上で、非常に実用的な関連性を持っています。
そこで我々は,SaFormerと呼ばれる新しいオフラインセーフなRLアプローチを提案する。
- 参考スコア(独自算出の注目度): 64.33956692265419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline safe RL is of great practical relevance for deploying agents in
real-world applications. However, acquiring constraint-satisfying policies from
the fixed dataset is non-trivial for conventional approaches. Even worse, the
learned constraints are stationary and may become invalid when the online
safety requirement changes. In this paper, we present a novel offline safe RL
approach referred to as SaFormer, which tackles the above issues via
conditional sequence modeling. In contrast to existing sequence models, we
propose cost-related tokens to restrict the action space and a posterior safety
verification to enforce the constraint explicitly. Specifically, SaFormer
performs a two-stage auto-regression conditioned by the maximum remaining cost
to generate feasible candidates. It then filters out unsafe attempts and
executes the optimal action with the highest expected return. Extensive
experiments demonstrate the efficacy of SaFormer featuring (1) competitive
returns with tightened constraint satisfaction; (2) adaptability to the
in-range cost values of the offline data without retraining; (3)
generalizability for constraints beyond the current dataset.
- Abstract(参考訳): オフラインの安全なrlは、現実世界のアプリケーションにエージェントをデプロイするのに非常に実用的です。
しかし、固定データセットから制約満足ポリシーを取得することは、従来のアプローチでは非自明である。
さらに悪いことに、学習された制約は静止しており、オンラインの安全要件が変更されると無効になる可能性がある。
本稿では,条件付きシーケンスモデリングによって上記の問題に取り組むsaformerと呼ばれる,オフラインの安全なrlアプローチを提案する。
既存のシーケンスモデルとは対照的に,アクション空間を制限するためのコスト関連トークンと,制約を明示的に強制するための後続安全検証を提案する。
具体的には、SaFormerは最大残コストで2段階の自動回帰を行い、実現可能な候補を生成する。
その後、安全でない試行をフィルタリングし、最も期待されるリターンで最適なアクションを実行する。
大規模な実験では,(1)厳密な制約満足度を持つ競争的リターン,(2)トレーニングを伴わないオフラインデータの範囲内コスト値への適応性,(3)現在のデータセットを超えた制約に対する一般化性など,SaFormerの有効性が示された。
関連論文リスト
- Learning General Continuous Constraint from Demonstrations via Positive-Unlabeled Learning [8.361428709513476]
本稿では,実証から連続的,任意の,あるいは非線形な制約を推測する,正の未ラベル(PU)学習手法を提案する。
提案手法の有効性を2つのMujoco環境で検証した。
論文 参考訳(メタデータ) (2024-07-23T14:00:18Z) - OASIS: Conditional Distribution Shaping for Offline Safe Reinforcement Learning [30.540598779743455]
オフライン安全な強化学習(RL)は、事前コンパイルされたデータセットを使用して制約を満たすポリシーをトレーニングすることを目的としている。
本稿では、これらの限界を克服するために、オフラインセーフなRLに新たなパラダイムを導入する。
提案手法は,効率的なデータ利用と正規化手法により,安全制約を遵守する。
論文 参考訳(メタデータ) (2024-07-19T20:15:00Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion
Model [23.93820548551533]
FISOR(FeasIbility-guided Safe Offline RL)を提案する。
FISORでは、変換された最適化問題に対する最適ポリシーは、重み付けされた行動クローニングの特別な形態で導出することができる。
FISORは、ほとんどのタスクにおいて最上位のリターンを達成しつつ、すべてのタスクにおいて安全満足を保証できる唯一の方法であることを示す。
論文 参考訳(メタデータ) (2024-01-19T14:05:09Z) - Constraint-Conditioned Policy Optimization for Versatile Safe Reinforcement Learning [33.988698754176646]
本稿では,2つのモジュールからなる条件付き制約付き政策最適化(CCPO)フレームワークを紹介する。
実験の結果,CCPOは安全性とタスク性能の点で基準線を上回っていることがわかった。
これにより、我々のアプローチは実世界の動的アプリケーションに適している。
論文 参考訳(メタデータ) (2023-10-05T17:39:02Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Constrained Decision Transformer for Offline Safe Reinforcement Learning [16.485325576173427]
我々は、新しい多目的最適化の観点から、オフラインセーフなRL問題を考察する。
本稿では,デプロイメント中のトレードオフを動的に調整可能な制約付き決定変換器(CDT)アプローチを提案する。
論文 参考訳(メタデータ) (2023-02-14T21:27:10Z) - Enhancing Safe Exploration Using Safety State Augmentation [71.00929878212382]
モデルフリー強化学習における安全な探索の課題に取り組む。
トレーニング中に安全予算をスケジューリングするためのポリシーを導出します。
Simmer はトレーニングを安定させ,安全RL の性能を平均的制約で向上させることができることを示す。
論文 参考訳(メタデータ) (2022-06-06T15:23:07Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。