論文の概要: Zero-Shot, Safe and Time-Efficient UAV Navigation via Potential-Based Reward Shaping, Control Lyapunov and Barrier Functions
- arxiv url: http://arxiv.org/abs/2605.01787v1
- Date: Sun, 03 May 2026 09:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.93894
- Title: Zero-Shot, Safe and Time-Efficient UAV Navigation via Potential-Based Reward Shaping, Control Lyapunov and Barrier Functions
- Title(参考訳): 電位ベースリワード整形, リアプノフ制御, バリア機能によるゼロショット, 安全, 時間効率UAVナビゲーション
- Authors: Ashik Abrar Naeem, Mohammad Ariful Haque,
- Abstract要約: 強化学習により、UAVは環境との相互作用を通じて適応的な行動を学ぶことができる。
本研究では,制御リアプノフ関数 (CLF) と制御バリア関数 (CBF) を併用したPBRS(Posion Based Reward Shaping) を提案する。
シミュレーション環境における実験結果から,複雑な環境下でのミッション時間と卓越した性能の顕著な低下が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous navigation and obstacle avoidance remain a core challenge of modern Unmanned Aerial Vehicles (UAVs). While traditional control methods struggle with the complexity and variability of the environment, reinforcement learning (RL) enables UAVs to learn adaptive behaviors through interaction with the environment. Existing research with RL prioritizes the mission success at the expense of mission time and safety of UAVs. This study integrates Potential Based Reward Shaping (PBRS) with Control Lyapunov Functions (CLF) and Control Barrier Functions (CBF) to simultaneously optimize mission time and ensure formal safety guarantees. An RL model is trained in a generalized simple environment, then used in complex scenarios incorporating a CLF-CBF-QP filter without further training. Experimental results in simulated environments demonstrate a significant reduction in mission time and outstanding performance in complex environment.
- Abstract(参考訳): 自律航法と障害物回避は、現代の無人航空機(UAV)の中核的な課題である。
従来の制御手法は環境の複雑さと変動性に苦慮するが、強化学習(RL)により、UAVは環境との相互作用を通じて適応的な行動を学ぶことができる。
既存のRLによる研究は、UAVのミッションタイムと安全を犠牲にしてミッションの成功を優先している。
本研究では、PBRSと制御リアプノフ関数(CLF)と制御バリア関数(CBF)を統合し、ミッションタイムを同時に最適化し、正式な安全保証を保証する。
RLモデルは一般化された単純な環境で訓練され、さらに訓練することなくCLF-CBF-QPフィルタを組み込んだ複雑なシナリオで使用される。
シミュレーション環境における実験結果から,複雑な環境下でのミッション時間と卓越した性能の顕著な低下が示された。
関連論文リスト
- AWARE: Adaptive Whole-body Active Rotating Control for Enhanced LiDAR-Inertial Odometry under Human-in-the-Loop Interaction [15.502575136823237]
リソース制限されたUAVプラットフォームは、しばしば視野の狭いLiDARセンサーに制限される。
AWAKEはバイオインスパイアされた全身のアクティブユーイングフレームワークで、UAV自身の回転速度を利用して効果的なセンサー水平線を拡大する。
Safe Flight Corridorメカニズムは、オペレータのナビゲーション意図を自律ヨー最適化から切り離すことによって、このHITLパラダイム内での運用上の安全性を保証する。
論文 参考訳(メタデータ) (2026-04-12T12:07:58Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - Depth-Constrained ASV Navigation with Deep RL and Limited Sensing [43.785833390490446]
本研究では,深度制約下でのASVナビゲーションのための強化学習フレームワークを提案する。
環境意識を高めるため,GPレグレッションをRLフレームワークに統合する。
我々は,実世界の水環境に対して,訓練された政策が適切に一般化されることを保証する効果的なシミュレート・トゥ・リアル・トランスファーを実証する。
論文 参考訳(メタデータ) (2025-04-25T10:56:56Z) - Custom Non-Linear Model Predictive Control for Obstacle Avoidance in Indoor and Outdoor Environments [0.0]
本稿では,DJI行列100のための非線形モデル予測制御(NMPC)フレームワークを提案する。
このフレームワークは様々なトラジェクトリタイプをサポートし、厳密な操作の精度を制御するためにペナルティベースのコスト関数を採用している。
論文 参考訳(メタデータ) (2024-10-03T17:50:19Z) - Intercepting Unauthorized Aerial Robots in Controlled Airspace Using Reinforcement Learning [2.519319150166215]
制御空域における無人航空機(UAV)の増殖は重大なリスクをもたらす。
この作業は、強化学習(RL)を用いることで、そのような脅威を管理することのできる堅牢で適応的なシステムの必要性に対処する。
固定翼UAV追跡エージェントの訓練にRLを用いる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-09T14:45:47Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Integrating DeepRL with Robust Low-Level Control in Robotic Manipulators for Non-Repetitive Reaching Tasks [0.24578723416255746]
ロボット工学では、現代の戦略は学習に基づくもので、複雑なブラックボックスの性質と解釈可能性の欠如が特徴である。
本稿では, 深部強化学習(DRL)に基づく衝突のない軌道プランナと, 自動調整型低レベル制御戦略を統合することを提案する。
論文 参考訳(メタデータ) (2024-02-04T15:54:03Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Adaptation For Reinforcement Learning in Safety-Critical
Settings [129.80279257258098]
都市運転のような現実の安全クリティカルな目標設定における強化学習(RL)は危険である。
非安全クリティカルな「ソース」環境でエージェントが最初に訓練する「安全クリティカル適応」タスクセットを提案する。
多様な環境における事前経験がリスクを見積もるためにエージェントに装備するという直感に基づくソリューションアプローチであるCARLを提案する。
論文 参考訳(メタデータ) (2020-08-15T01:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。