論文の概要: Gameplay Filters: Robust Zero-Shot Safety through Adversarial Imagination
- arxiv url: http://arxiv.org/abs/2405.00846v3
- Date: Thu, 29 Aug 2024 15:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:08:38.964888
- Title: Gameplay Filters: Robust Zero-Shot Safety through Adversarial Imagination
- Title(参考訳): 対戦型イマジネーションによるロバストゼロショットの安全性
- Authors: Duy P. Nguyen, Kai-Chieh Hsu, Wenhao Yu, Jie Tan, Jaime F. Fisac,
- Abstract要約: 本稿では,シミュレーション学習された安全戦略と仮想敵との仮説的一致を連続的に再現する新しい種類の予測安全フィルタを提案する。
本研究では, (36-D) 四元体力学の1次全次安全フィルタを用いて, アプローチのスケーラビリティと堅牢性を実証する。
- 参考スコア(独自算出の注目度): 12.548355269509882
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the impressive recent advances in learning-based robot control, ensuring robustness to out-of-distribution conditions remains an open challenge. Safety filters can, in principle, keep arbitrary control policies from incurring catastrophic failures by overriding unsafe actions, but existing solutions for complex (e.g., legged) robot dynamics do not span the full motion envelope and instead rely on local, reduced-order models. These filters tend to overly restrict agility and can still fail when perturbed away from nominal conditions. This paper presents the gameplay filter, a new class of predictive safety filter that continually plays out hypothetical matches between its simulation-trained safety strategy and a virtual adversary co-trained to invoke worst-case events and sim-to-real error, and precludes actions that would cause it to fail down the line. We demonstrate the scalability and robustness of the approach with a first-of-its-kind full-order safety filter for (36-D) quadrupedal dynamics. Physical experiments on two different quadruped platforms demonstrate the superior zero-shot effectiveness of the gameplay filter under large perturbations such as tugging and unmodeled terrain.
- Abstract(参考訳): 学習ベースのロボット制御の目覚ましい進歩にもかかわらず、アウト・オブ・ディストリビューション条件に対する堅牢性を保証することは、依然としてオープンな課題である。
安全フィルタは、原則として、安全でないアクションをオーバーライドすることで、破滅的な失敗を引き起こすための任意の制御ポリシーを維持することができるが、複雑な(例えば、脚のついた)ロボットダイナミクスのための既存のソリューションは、フルモーションエンベロープにまたがらず、局所的な、縮小順序モデルに依存している。
これらのフィルタは、過度にアジリティを制限し、名目上の条件から遠ざかっても失敗する傾向がある。
本稿では,シミュレーション学習された安全戦略と,最悪のケースイベントやシム・ツー・リアルエラーを発生させるために訓練された仮想敵との仮説整合を連続的に行う新しい種類の予測安全フィルタであるゲームプレイフィルタについて述べる。
本研究では, (36-D) 四元体力学の1次全次安全フィルタを用いて, アプローチのスケーラビリティと堅牢性を実証する。
2つの異なる四角いプラットフォーム上での物理実験は、タグ付けや非モデル化地形のような大きな摂動下でのゲームプレイフィルタのゼロショット効果が優れていることを示した。
関連論文リスト
- Pre-Trained Vision Models as Perception Backbones for Safety Filters in Autonomous Driving [2.4381063627159523]
エンド・ツー・エンドのビジョンに基づく自動運転において、安全は依然として大きな関心事である。
我々は、凍結した事前学習された視覚表現モデルを知覚バックボーンとして使用し、視覚に基づく安全フィルタを設計する。
この状況下では、4つの一般的な事前学習型視覚モデルのオフライン性能を実証的に評価する。
論文 参考訳(メタデータ) (2024-10-29T22:59:23Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters [0.0]
強化学習は複雑なシナリオに適応するためにますます使われていますが、安全性と安定性を保証するための標準フレームワークは欠如しています。
予測安全フィルタ(PSF)は、明示的な制約処理を伴わずに、学習ベースの制御における制約満足度を確保する、有望なソリューションを提供する。
この手法を海洋航法に適用し,シミュレーションされたCybership IIモデル上でRLとPSFを組み合わせた。
その結果, PSF が安全維持に有効であることは, RL エージェントの学習速度と性能を損なうことなく示され, PSF を使用せずに標準 RL エージェントに対して評価された。
論文 参考訳(メタデータ) (2023-12-04T12:37:54Z) - Safe Deep Policy Adaptation [7.2747306035142225]
強化学習(RL)に基づく政策適応は、汎用性と汎用性を提供するが、安全性と堅牢性に挑戦する。
政策適応と安全強化学習の課題を同時に解決する新しいRLおよび制御フレームワークであるSafeDPAを提案する。
我々は、SafeDPAの理論的安全性を保証し、学習エラーや余分な摂動に対するSafeDPAの堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-08T00:32:59Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - ISAACS: Iterative Soft Adversarial Actor-Critic for Safety [0.9217021281095907]
この研究は、ロボットシステムのための堅牢な安全維持コントローラのスケーラブルな合成を可能にする新しいアプローチを導入する。
安全を追求するフォールバックポリシーは、モデルエラーの最悪のケースの実現を促進するために、敵の「混乱」エージェントと共同で訓練される。
学習した制御ポリシーは本質的に安全性を保証するものではないが、リアルタイムの安全フィルタを構築するために使用される。
論文 参考訳(メタデータ) (2022-12-06T18:53:34Z) - Safe Reinforcement Learning Using Black-Box Reachability Analysis [20.875010584486812]
強化学習(Reinforcement Learning, RL)は、不確実な環境下でのロボットの動き計画と制御を高度に行うことができる。
広範な展開を正当化するためには、ロボットは性能を犠牲にすることなく安全上の制約を尊重しなければならない。
我々は3つの主要コンポーネントを持つブラックボックス到達可能性に基づく安全層(BRSL)を提案する。
論文 参考訳(メタデータ) (2022-04-15T10:51:09Z) - Evaluating the Robustness of Semantic Segmentation for Autonomous
Driving against Real-World Adversarial Patch Attacks [62.87459235819762]
自動運転車のような現実のシナリオでは、現実の敵例(RWAE)にもっと注意を払わなければならない。
本稿では,デジタルおよび実世界の敵対パッチの効果を検証し,一般的なSSモデルのロバスト性を詳細に評価する。
論文 参考訳(メタデータ) (2021-08-13T11:49:09Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。