論文の概要: ConBaT: Control Barrier Transformer for Safe Policy Learning
- arxiv url: http://arxiv.org/abs/2303.04212v1
- Date: Tue, 7 Mar 2023 20:04:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-09 16:04:35.604592
- Title: ConBaT: Control Barrier Transformer for Safe Policy Learning
- Title(参考訳): ConBaT: 安全な政策学習のための制御バリアトランス
- Authors: Yue Meng, Sai Vemprala, Rogerio Bonatti, Chuchu Fan, and Ashish Kapoor
- Abstract要約: Control Barrier Transformer (ConBaT) は、自己管理型でデモから安全な動作を学ぶアプローチである。
デプロイメントでは、軽量なオンライン最適化を使用して、学習された安全なセット内に将来状態が確実に配置されるアクションを見つけます。
- 参考スコア(独自算出の注目度): 26.023275758215423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale self-supervised models have recently revolutionized our ability
to perform a variety of tasks within the vision and language domains. However,
using such models for autonomous systems is challenging because of safety
requirements: besides executing correct actions, an autonomous agent must also
avoid the high cost and potentially fatal critical mistakes. Traditionally,
self-supervised training mainly focuses on imitating previously observed
behaviors, and the training demonstrations carry no notion of which behaviors
should be explicitly avoided. In this work, we propose Control Barrier
Transformer (ConBaT), an approach that learns safe behaviors from
demonstrations in a self-supervised fashion. ConBaT is inspired by the concept
of control barrier functions in control theory and uses a causal transformer
that learns to predict safe robot actions autoregressively using a critic that
requires minimal safety data labeling. During deployment, we employ a
lightweight online optimization to find actions that ensure future states lie
within the learned safe set. We apply our approach to different simulated
control tasks and show that our method results in safer control policies
compared to other classical and learning-based methods such as imitation
learning, reinforcement learning, and model predictive control.
- Abstract(参考訳): 大規模自己管理モデルは最近、ビジョンや言語領域内でさまざまなタスクを実行する能力に革命をもたらした。
しかし、そのようなモデルを自律システムに使用することは、安全要件のために困難である:正しい行動を実行する以外に、自律エージェントは高いコストと致命的な致命的な過ちを避ける必要がある。
伝統的に、自己指導訓練は主に観察された行動の模倣に焦点を当てており、トレーニングのデモンストレーションでは、どの行動が明示的に避けるべきかという概念は持たない。
そこで本研究では,自己監視方式で実験から安全な行動を学習する制御バリアトランスフォーマ(conbat)を提案する。
ConBaTは制御理論における制御障壁関数の概念に着想を得ており、最小限の安全データラベリングを必要とする批評家を用いて安全ロボット行動の自動回帰予測を学ぶ因果変換器を使用している。
デプロイ中、私たちは軽量なオンライン最適化を採用して、学習したセーフセット内の将来の状態を確実にするアクションを見つけました。
本手法は,様々なシミュレーション制御タスクに適用し,模倣学習,強化学習,モデル予測制御といった他の古典的・学習ベースの手法と比較して,より安全な制御方針を実現することを示す。
関連論文リスト
- Learning Exactly Linearizable Deep Dynamics Models [0.07366405857677226]
本稿では, 安定度, 信頼性, 信頼性を確保するために, 様々な制御理論を容易に適用可能な, 線形化可能な動的モデルの学習法を提案する。
提案手法は, 自動車エンジンのリアルタイム制御に応用され, 予測性能と制約下での安定制御が良好であることを示す。
論文 参考訳(メタデータ) (2023-11-30T05:40:55Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - ControlVAE: Model-Based Learning of Generative Controllers for
Physics-Based Characters [28.446959320429656]
可変オートエンコーダ(VAE)に基づく生成動作制御ポリシーを学習するためのモデルベースのフレームワークであるControlVAEを紹介する。
我々のフレームワークは、多種多様な非組織的な動作シーケンスから、リッチで柔軟なスキル表現と、スキル条件付き生成制御ポリシーを学習することができる。
シミュレーション文字のリアルかつインタラクティブな制御を可能にする多種多様なタスクセットを用いた制御VAEの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-12T10:11:36Z) - Action-Conditioned Contrastive Policy Pretraining [39.13710045468429]
深層運動のポリシー学習は、ロボット操作や自律運転などの制御タスクにおいて有望な結果を達成する。
トレーニング環境との膨大な数のオンラインインタラクションが必要です。
本研究では、数時間の未計算YouTubeビデオを用いて、タスクを駆動するためのポリシー表現を事前訓練することを目的とする。
論文 参考訳(メタデータ) (2022-04-05T17:58:22Z) - Differentiable Control Barrier Functions for Vision-based End-to-End
Autonomous Driving [100.57791628642624]
本稿では,視覚に基づくエンドツーエンド自動運転のための安全保証学習フレームワークを提案する。
我々は、勾配降下によりエンドツーエンドに訓練された微分制御バリア関数(dCBF)を備えた学習システムを設計する。
論文 参考訳(メタデータ) (2022-03-04T16:14:33Z) - Adaptive control of a mechatronic system using constrained residual
reinforcement learning [0.0]
本研究では,不確実な環境下での従来のコントローラの性能向上のための,シンプルで実用的で直感的な手法を提案する。
本手法は, 産業用モーションコントロールにおける従来の制御器が, 異なる動作条件に対応するために適応性よりも頑健であることを示す。
論文 参考訳(メタデータ) (2021-10-06T08:13:05Z) - Reinforcement Learning for Robust Parameterized Locomotion Control of
Bipedal Robots [121.42930679076574]
シミュレーションにおけるロコモーションポリシをトレーニングするためのモデルフリー強化学習フレームワークを提案する。
ドメインランダム化は、システムダイナミクスのバリエーションにまたがる堅牢な振る舞いを学ぶためのポリシーを奨励するために使用されます。
本研究では、目標歩行速度、歩行高さ、旋回ヨーなどの多目的歩行行動について示す。
論文 参考訳(メタデータ) (2021-03-26T07:14:01Z) - Weakly Supervised Reinforcement Learning for Autonomous Highway Driving
via Virtual Safety Cages [42.57240271305088]
規則に基づく安全ケージは、車両の安全性の向上と強化学習エージェントに対する弱い監督を提供する自律型車両の縦方向制御に対する強化学習ベースのアプローチを提示する。
モデルパラメータが制約されたり,あるいは最適化されていない場合,モデルが強化学習だけでは運転を訓練できない場合でも,モデルが安全な運転方針を学習できることを示す。
論文 参考訳(メタデータ) (2021-03-17T15:30:36Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。