論文の概要: Fail-Safe Adversarial Generative Imitation Learning
- arxiv url: http://arxiv.org/abs/2203.01696v2
- Date: Fri, 28 Jul 2023 13:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 17:02:00.473742
- Title: Fail-Safe Adversarial Generative Imitation Learning
- Title(参考訳): フェイルセーフな敵対的生成的模倣学習
- Authors: Philipp Geiger, Christoph-Nikolas Straehle
- Abstract要約: 本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
- 参考スコア(独自算出の注目度): 9.594432031144716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For flexible yet safe imitation learning (IL), we propose theory and a
modular method, with a safety layer that enables a closed-form probability
density/gradient of the safe generative continuous policy, end-to-end
generative adversarial training, and worst-case safety guarantees. The safety
layer maps all actions into a set of safe actions, and uses the
change-of-variables formula plus additivity of measures for the density. The
set of safe actions is inferred by first checking safety of a finite sample of
actions via adversarial reachability analysis of fallback maneuvers, and then
concluding on the safety of these actions' neighborhoods using, e.g., Lipschitz
continuity. We provide theoretical analysis showing the robustness advantage of
using the safety layer already during training (imitation error linear in the
horizon) compared to only using it at test time (up to quadratic error). In an
experiment on real-world driver interaction data, we empirically demonstrate
tractability, safety and imitation performance of our approach.
- Abstract(参考訳): フレキシブルで安全な模倣学習(IL)のために,安全な生成連続ポリシーの閉形式確率密度/漸進性,エンドツーエンドの生成逆行訓練,最悪のケースの安全保証を実現するための理論とモジュール方式を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
安全行動の集合は、まず、フォールバック操作の逆到達可能性解析を通じて有限の動作の安全性を確認し、次にリプシッツ連続性(英語版)のようなこれらの作用の近傍の安全性を結論付けることによって推測される。
実験時(二次誤差まで)にのみ使用する場合と比較して,すでにトレーニング中(水平方向の模倣誤差)に安全層を使用することによるロバスト性利点を示す理論的解析を行う。
実世界のドライバインタラクションデータを用いた実験で,提案手法の操作性,安全性,模倣性能を実証した。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。