論文の概要: Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects
- arxiv url: http://arxiv.org/abs/2304.03081v1
- Date: Thu, 6 Apr 2023 14:03:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-07 14:10:30.632960
- Title: Safe MDP Planning by Learning Temporal Patterns of Undesirable
Trajectories and Averting Negative Side Effects
- Title(参考訳): 好ましくない軌道の時間パターン学習と負の副作用回避による安全なMDP計画
- Authors: Siow Meng Low, Akshat Kumar, Scott Sanner
- Abstract要約: 安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
不完全なモデルに基づく操作は、しばしば意図しない負の副作用(NSE)を生じさせる
- 参考スコア(独自算出の注目度): 27.41101006357176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In safe MDP planning, a cost function based on the current state and action
is often used to specify safety aspects. In the real world, often the state
representation used may lack sufficient fidelity to specify such safety
constraints. Operating based on an incomplete model can often produce
unintended negative side effects (NSEs). To address these challenges, first, we
associate safety signals with state-action trajectories (rather than just an
immediate state-action). This makes our safety model highly general. We also
assume categorical safety labels are given for different trajectories, rather
than a numerical cost function, which is harder to specify by the problem
designer. We then employ a supervised learning model to learn such
non-Markovian safety patterns. Second, we develop a Lagrange multiplier method,
which incorporates the safety model and the underlying MDP model in a single
computation graph to facilitate agent learning of safe behaviors. Finally, our
empirical results on a variety of discrete and continuous domains show that
this approach can satisfy complex non-Markovian safety constraints while
optimizing an agent's total returns, is highly scalable, and is also better
than the previous best approach for Markovian NSEs.
- Abstract(参考訳): 安全なMDP計画では、現在の状態と行動に基づくコスト関数が安全面を特定するためにしばしば使用される。
現実の世界では、しばしば使用される状態表現はそのような安全制約を特定するのに十分な忠実さを欠いている。
不完全モデルに基づく操作はしばしば意図しない負の副作用(NSE)を生じる。
これらの課題に対処するために、まず、安全信号と状態行動軌跡(即時状態行動ではなく)を関連付ける。
これにより、安全モデルは極めて一般的なものになる。
また,問題設計者の特定が困難である数値的コスト関数よりも,異なる軌道に対してカテゴリ安全ラベルが与えられると仮定する。
そして,このような非マルコフ的安全パターンを学習するために教師付き学習モデルを用いる。
第2に,安全な行動のエージェント学習を容易にするために,単一の計算グラフに安全モデルと基礎となるmdpモデルを組み込んだラグランジュ乗算法を開発した。
最後に、様々な離散的かつ連続的な領域に関する実験結果から、このアプローチは、エージェントの総リターンを最適化しながら、複雑な非マルコフ的安全制約を満たすことができ、高度にスケーラブルであり、マルコフ的NSEに対する以前のベストアプローチよりも優れていることを示す。
関連論文リスト
- On Prompt-Driven Safeguarding for Large Language Models [178.612893285033]
モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。
そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Safety Margins for Reinforcement Learning [74.13100479426424]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Safe Deep Reinforcement Learning by Verifying Task-Level Properties [84.64203221849648]
コスト関数は、安全深層強化学習(DRL)において一般的に用いられる。
このコストは通常、国家空間における政策決定のリスクの定量化が難しいため、指標関数として符号化される。
本稿では,ドメイン知識を用いて,そのような状態に近接するリスクを定量化するための代替手法について検討する。
論文 参考訳(メタデータ) (2023-02-20T15:24:06Z) - On the Safety of Interpretable Machine Learning: A Maximum Deviation
Approach [42.31002956593477]
解釈可能で説明可能な機械学習は、最近関心が高まっている。
我々は、この急上昇の背後にある主要な動機として安全に焦点を当て、解釈可能性と安全性の関係をより定量的なものにします。
本研究は、住宅ローンの承認を含むケーススタディで、その方法と、逸脱から得られる可能性のあるモデルについての洞察を説明する。
論文 参考訳(メタデータ) (2022-11-02T21:57:24Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z) - Safe Reinforcement Learning by Imagining the Near Future [37.0376099401243]
本研究は, 短期的に計画することで, 安全でない状態を回避できるような環境に着目する。
我々は、安全でない軌跡を過度に罰するモデルに基づくアルゴリズムを考案し、そのアルゴリズムが特定の仮定の下で安全でない状態を回避できることを保証する。
実験により, 連続制御タスクにおいて, 安全性違反が少なく, 競争力のある報奨を達成できることが実証された。
論文 参考訳(メタデータ) (2022-02-15T23:28:24Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。