論文の概要: Fail-Safe Generative Adversarial Imitation Learning
- arxiv url: http://arxiv.org/abs/2203.01696v1
- Date: Thu, 3 Mar 2022 13:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-04 15:23:01.949839
- Title: Fail-Safe Generative Adversarial Imitation Learning
- Title(参考訳): フェイルセーフ・ジェネレーティブ・アドバーサリー・イミテーション学習
- Authors: Philipp Geiger, Christoph-Nikolas Straehle
- Abstract要約: フレキシブルで安全な模倣学習(IL)のために,安全層を用いた生成模倣ポリシーを用いたモジュラーアプローチを提案する。
安全層の正確な密度は、断片的に微分可能な注入の可算非インジェクティブグルーリングを使用することによって得られる。
実世界のドライバーのインタラクションデータに挑戦する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
- 参考スコア(独自算出の注目度): 9.594432031144716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For flexible yet safe imitation learning (IL), we propose a modular approach
that uses a generative imitator policy with a safety layer, has an overall
explicit density/gradient, can therefore be end-to-end trained using generative
adversarial IL (GAIL), and comes with theoretical worst-case safety/robustness
guarantees. The safety layer's exact density comes from using a countable
non-injective gluing of piecewise differentiable injections and the
change-of-variables formula. The safe set (into which the safety layer maps) is
inferred by sampling actions and their potential future fail-safe fallback
continuations, together with Lipschitz continuity and convexity arguments. We
also provide theoretical bounds showing the advantage of using the safety layer
already during training (imitation error linear in the horizon) compared to
only using it at test time (quadratic error). In an experiment on challenging
real-world driver interaction data, we empirically demonstrate tractability,
safety and imitation performance of our approach.
- Abstract(参考訳): フレキシブルで安全な模倣学習 (IL) のために, 生成模倣ポリシーを安全層と併用し, 全体的な明示的密度/漸進性を持ち, 生成敵対的IL (GAIL) を用いてエンドツーエンドの訓練が可能であり, 理論的に最悪の安全/悪質性を保証するモジュール方式を提案する。
安全層の正確な密度は、断片的に微分可能なインジェクションの可算非インジェクティブ・グルリングと変量式を用いて得られる。
セーフセット(安全層がマップする)は、リプシッツ連続性や凸引数とともに、サンプリングアクションとその将来のフェイルセーフフォールバック継続によって推測される。
また,すでにトレーニング中(水平方向のイミテーションエラー)に安全層を使用することの利点を示す理論的境界を,テスト時(二次誤差)にのみ使用することと比較した。
実世界のドライバーのインタラクションデータに挑戦する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - ProBF: Learning Probabilistic Safety Certificates with Barrier Functions [31.203344483485843]
制御バリア関数は、地平系力学にアクセスできれば安全を保証できる便利なツールである。
実際には、システムダイナミクスに関する不正確な知識があるため、安全でない振る舞いにつながる可能性があります。
本手法の有効性をSegwayとQuadrotorのシミュレーション実験により示す。
論文 参考訳(メタデータ) (2021-12-22T20:18:18Z) - Learning to Act Safely with Limited Exposure and Almost Sure Certainty [1.0323063834827415]
本稿では,未知の環境における安全な行動を取るための学習を,探索試験を必要とせずに実現できるという考えを提唱する。
本稿では,まず標準的マルチアームバンディット問題に着目し,不確実性の存在下での学習安全性の本質的なトレードオフについて検討する。
論文 参考訳(メタデータ) (2021-05-18T18:05:12Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。