論文の概要: In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States
- arxiv url: http://arxiv.org/abs/2301.12012v1
- Date: Fri, 27 Jan 2023 22:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:41:23.508110
- Title: In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States
- Title(参考訳): In-Distribution Barrier関数:out-of-Distribution状態を回避するセルフスーパービジョンポリシフィルタ
- Authors: Fernando Casta\~neda, Haruki Nishimura, Rowan McAllister, Koushil
Sreenath, Adrien Gaidon
- Abstract要約: 本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
- 参考スコア(独自算出の注目度): 84.24300005271185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning-based control approaches have shown great promise in performing
complex tasks directly from high-dimensional perception data for real robotic
systems. Nonetheless, the learned controllers can behave unexpectedly if the
trajectories of the system divert from the training data distribution, which
can compromise safety. In this work, we propose a control filter that wraps any
reference policy and effectively encourages the system to stay in-distribution
with respect to offline-collected safe demonstrations. Our methodology is
inspired by Control Barrier Functions (CBFs), which are model-based tools from
the nonlinear control literature that can be used to construct minimally
invasive safe policy filters. While existing methods based on CBFs require a
known low-dimensional state representation, our proposed approach is directly
applicable to systems that rely solely on high-dimensional visual observations
by learning in a latent state-space. We demonstrate that our method is
effective for two different visuomotor control tasks in simulation
environments, including both top-down and egocentric view settings.
- Abstract(参考訳): 学習に基づく制御アプローチは、実際のロボットシステムのための高次元知覚データから直接複雑なタスクを実行することに非常に有望である。
それでも、学習したコントローラは、システムの軌道がトレーニングデータ分布から外れて安全を損なう可能性がある場合、予期せず振る舞うことができる。
そこで本研究では,任意の参照ポリシーを包み込み,オフラインに集結した安全なデモンストレーションに対して,システムの配布継続を効果的に促す制御フィルタを提案する。
本手法は,最小侵襲的安全なポリシフィルタを構築するための非線形制御文献からモデルベースツールである制御障壁関数(cbfs)に着想を得たものである。
cbfに基づく既存の手法は既知の低次元状態表現を必要とするが、提案手法は潜在状態空間で学習することで高次元の視覚観察のみに依存するシステムに適用できる。
本手法は,トップダウンとエゴセントリックの両方のビュー設定を含む,シミュレーション環境における2つの異なる visuomotor 制御タスクに有効であることを実証する。
関連論文リスト
- Learning-Based Shielding for Safe Autonomy under Unknown Dynamics [9.786577115501602]
シールド(英: Shielding)は、ブラックボックスコントローラの下でシステムの安全性を保証する方法である。
本稿では,未知システムの安全性を保証するデータ駆動遮蔽手法を提案する。
論文 参考訳(メタデータ) (2024-10-07T16:10:15Z) - Learning-Based Optimal Control with Performance Guarantees for Unknown Systems with Latent States [4.4820711784498]
本稿では,潜在状態を持つ未知非線形系に対する最適入力軌道の計算法を提案する。
提案手法の有効性を数値シミュレーションで示す。
論文 参考訳(メタデータ) (2023-03-31T11:06:09Z) - A Deep Learning Technique to Control the Non-linear Dynamics of a
Gravitational-wave Interferometer [0.0]
非線形動的制御問題を解くディープラーニング手法を開発した。
LIGOシステムの動作に生じる重要な非線形制御問題に対して,本手法を適用した。
また、1つの現代的なCPUコア上で、高速なサンプリング速度でリアルタイムに実行できる計算効率の良いモデルを開発した。
論文 参考訳(メタデータ) (2023-02-15T19:47:56Z) - ControlVAE: Model-Based Learning of Generative Controllers for
Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。
我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-12T10:11:36Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Enforcing robust control guarantees within neural network policies [76.00287474159973]
本稿では、ニューラルネットワークによってパラメータ化され、ロバスト制御と同じ証明可能なロバスト性基準を適用した、一般的な非線形制御ポリシークラスを提案する。
提案手法は,複数の領域において有効であり,既存のロバスト制御法よりも平均ケース性能が向上し,(非ロバスト)深部RL法よりも最悪のケース安定性が向上した。
論文 参考訳(メタデータ) (2020-11-16T17:14:59Z) - Learning Hybrid Control Barrier Functions from Data [66.37785052099423]
ハイブリッドシステムの安全な制御法則を得るための体系的なツールが欠如していることから,データから確実に安全な制御法則を学習するための最適化ベースのフレームワークを提案する。
特に、システムダイナミクスが知られており、安全なシステム動作を示すデータが利用可能であるような設定を仮定する。
論文 参考訳(メタデータ) (2020-11-08T23:55:02Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Constrained Adaptive Differentiable Predictive Control Policies
With Guarantees [1.1086440815804224]
本稿では,線形システムに対する制約付きニューラルコントロールポリシーの学習方法として,微分可能予測制御(DPC)を提案する。
我々は,モデル予測制御(MPC)損失関数の逆伝搬と,微分可能な閉ループ系力学モデルによるペナルティの制約により,直接的な政策勾配を求めるために,自動微分を用いる。
論文 参考訳(メタデータ) (2020-04-23T14:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。