論文の概要: Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers
- arxiv url: http://arxiv.org/abs/2509.02808v1
- Date: Tue, 02 Sep 2025 20:22:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.331666
- Title: Improving the Resilience of Quadrotors in Underground Environments by Combining Learning-based and Safety Controllers
- Title(参考訳): 学習制御と安全制御を組み合わせた地下環境におけるクアドロレータの弾力性向上
- Authors: Isaac Ronald Ward, Mark Paral, Kristopher Riordan, Mykel J. Kochenderfer,
- Abstract要約: 環境上におけるフローベース事前の正規化をトレーニングし、任意の時間における四重項の分布外分布の度合いを測る。
我々は、この測定をランタイムモニターとして使用し、学習ベースのコントローラと安全なコントローラを十分に配布できないときに切り替えることができます。
- 参考スコア(独自算出の注目度): 22.566692834880396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomously controlling quadrotors in large-scale subterranean environments is applicable to many areas such as environmental surveying, mining operations, and search and rescue. Learning-based controllers represent an appealing approach to autonomy, but are known to not generalize well to `out-of-distribution' environments not encountered during training. In this work, we train a normalizing flow-based prior over the environment, which provides a measure of how far out-of-distribution the quadrotor is at any given time. We use this measure as a runtime monitor, allowing us to switch between a learning-based controller and a safe controller when we are sufficiently out-of-distribution. Our methods are benchmarked on a point-to-point navigation task in a simulated 3D cave environment based on real-world point cloud data from the DARPA Subterranean Challenge Final Event Dataset. Our experimental results show that our combined controller simultaneously possesses the liveness of the learning-based controller (completing the task quickly) and the safety of the safety controller (avoiding collision).
- Abstract(参考訳): 大規模な地下環境下での自律的な制御は、環境調査、鉱業活動、捜索救助など多くの分野に適用できる。
学習ベースのコントローラは、自律性に対する魅力的なアプローチであるが、トレーニング中に遭遇しない「配布外」環境にうまく一般化しないことが知られている。
本研究では, 環境上におけるフローベース事前の正規化を訓練し, 任意の時間における四重項の分布外分布の度合いを測る。
我々は、この測定をランタイムモニターとして使用し、学習ベースのコントローラと安全なコントローラを十分に配布できないときに切り替えることができます。
本手法は,DARPA Subterranean Challenge Final Event Datasetのリアルタイムクラウドデータに基づいて,シミュレーションされた3次元洞窟環境におけるポイントツーポイントナビゲーションタスク上でベンチマークを行う。
実験の結果,我々の組み合わせた制御器は,学習ベース制御器の生存性と安全制御器の安全性(衝突回避)を同時に有することがわかった。
関連論文リスト
- Designing Control Barrier Function via Probabilistic Enumeration for Safe Reinforcement Learning Navigation [55.02966123945644]
本稿では,ニューラルネットワーク検証技術を利用して制御障壁関数(CBF)とポリシー修正機構の設計を行う階層型制御フレームワークを提案する。
提案手法は,安全なCBFベースの制御層を構築するために使用される,安全でない操作領域を特定するための確率的列挙に依存する。
これらの実験は、効率的なナビゲーション動作を維持しながら、安全でない動作を補正する提案手法の能力を実証するものである。
論文 参考訳(メタデータ) (2025-04-30T13:47:25Z) - A General Infrastructure and Workflow for Quadrotor Deep Reinforcement Learning and Reality Deployment [48.90852123901697]
本稿では, エンドツーエンドの深層強化学習(DRL)ポリシーを四元数へシームレスに移行できるプラットフォームを提案する。
本プラットフォームは, ホバリング, 動的障害物回避, 軌道追尾, 気球打上げ, 未知環境における計画など, 多様な環境を提供する。
論文 参考訳(メタデータ) (2025-04-21T14:25:23Z) - Extensive Exploration in Complex Traffic Scenarios using Hierarchical Reinforcement Learning [7.380119332658803]
我々の研究は、複雑な意思決定問題を管理可能なサブタスクに効率的に分解する先駆的な階層的枠組みを導入する。
高レベルコントローラと低レベルコントローラを別々にトレーニングする2段階のトレーニングプロセスを採用しています。
高レベルコントローラは、長期遅延報酬による探索可能性の向上を示し、低レベルコントローラは、短時間の報酬を使用して、縦方向および横方向の制御機能を提供する。
論文 参考訳(メタデータ) (2025-01-25T00:00:11Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - A comparison of RL-based and PID controllers for 6-DOF swimming robots:
hybrid underwater object tracking [8.362739554991073]
本稿では,PIDコントローラの代替として,集中型深層Q-network(DQN)コントローラを用いた調査と評価を行う。
我々の主な焦点は、この遷移を水中物体追跡の特定のケースで説明することに集中している。
本実験は,Unityをベースとしたシミュレータで実施し,分離したPIDコントローラ上での集中型RLエージェントの有効性を検証した。
論文 参考訳(メタデータ) (2024-01-29T23:14:15Z) - In-Distribution Barrier Functions: Self-Supervised Policy Filters that
Avoid Out-of-Distribution States [84.24300005271185]
本稿では,任意の参照ポリシーをラップした制御フィルタを提案する。
本手法は、トップダウンとエゴセントリックの両方のビュー設定を含むシミュレーション環境における2つの異なるビズモータ制御タスクに有効である。
論文 参考訳(メタデータ) (2023-01-27T22:28:19Z) - Learning to Control Direct Current Motor for Steering in Real Time via
Reinforcement Learning [2.3554584457413483]
実機と模擬環境の両方においてゴルフカートの位置制御にNFQアルゴリズムを用いる。
シミュレーションでは4分、実際のハードウェアでは11分で制御を成功させました。
論文 参考訳(メタデータ) (2021-07-31T03:24:36Z) - Deluca -- A Differentiable Control Library: Environments, Methods, and
Benchmarking [52.44199258132215]
我々は、微分可能な物理学とロボティクス環境のオープンソースライブラリを提示する。
ライブラリには,OpenAI Gymの古典的なコントロール設定など,いくつかのポピュラーな環境がある。
ライブラリを使用して得られた新しい科学的結果のいくつかのユースケースを提供します。
論文 参考訳(メタデータ) (2021-02-19T15:06:47Z) - Learning a Contact-Adaptive Controller for Robust, Efficient Legged
Locomotion [95.1825179206694]
四足歩行ロボットのためのロバストコントローラを合成するフレームワークを提案する。
高レベルコントローラは、環境の変化に応じてプリミティブのセットを選択することを学習する。
確立された制御方法を使用してプリミティブを堅牢に実行する低レベルコントローラ。
論文 参考訳(メタデータ) (2020-09-21T16:49:26Z) - Vision-Based Autonomous Drone Control using Supervised Learning in
Simulation [0.0]
室内環境におけるMAVの自律的ナビゲーションと着陸にSupervised Learningを用いた視覚に基づく制御手法を提案する。
我々は、低解像度画像とセンサー入力を高レベル制御コマンドにマッピングする畳み込みニューラルネットワーク(CNN)を訓練した。
我々のアプローチは、類似の強化学習アプローチよりも短いトレーニング時間を必要としており、匹敵するSupervised Learningアプローチが直面する手動データ収集の限界を克服する可能性がある。
論文 参考訳(メタデータ) (2020-09-09T13:45:41Z) - Learning Power Control from a Fixed Batch of Data [28.618312473850974]
監視環境から収集した電力制御データを用いて,未探索環境における電力制御を行う。
我々はオフラインの深層強化学習を採用し、エージェントはデータのみを用いて送信パワーを生産するポリシーを学習する。
論文 参考訳(メタデータ) (2020-08-05T01:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。