論文の概要: QuasiNav: Asymmetric Cost-Aware Navigation Planning with Constrained Quasimetric Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.16666v1
- Date: Tue, 22 Oct 2024 03:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:24.514919
- Title: QuasiNav: Asymmetric Cost-Aware Navigation Planning with Constrained Quasimetric Reinforcement Learning
- Title(参考訳): QuasiNav: 制約付き擬似強化学習による非対称コスト意識ナビゲーション計画
- Authors: Jumman Hossain, Abu-Zaher Faridee, Derrik Asher, Jade Freeman, Theron Trout, Timothy Gregory, Nirmalya Roy,
- Abstract要約: QuasiNavは、非対称コストを明示的にモデル化するために擬似埋め込みを統合する新しい強化学習フレームワークである。
従来手法よりも優れた性能を示し, 成功率の向上, エネルギー効率の向上, 安全制約の遵守性の向上を実現した。
- 参考スコア(独自算出の注目度): 0.8795040582681392
- License:
- Abstract: Autonomous navigation in unstructured outdoor environments is inherently challenging due to the presence of asymmetric traversal costs, such as varying energy expenditures for uphill versus downhill movement. Traditional reinforcement learning methods often assume symmetric costs, which can lead to suboptimal navigation paths and increased safety risks in real-world scenarios. In this paper, we introduce QuasiNav, a novel reinforcement learning framework that integrates quasimetric embeddings to explicitly model asymmetric costs and guide efficient, safe navigation. QuasiNav formulates the navigation problem as a constrained Markov decision process (CMDP) and employs quasimetric embeddings to capture directionally dependent costs, allowing for a more accurate representation of the terrain. This approach is combined with adaptive constraint tightening within a constrained policy optimization framework to dynamically enforce safety constraints during learning. We validate QuasiNav across three challenging navigation scenarios-undulating terrains, asymmetric hill traversal, and directionally dependent terrain traversal-demonstrating its effectiveness in both simulated and real-world environments. Experimental results show that QuasiNav significantly outperforms conventional methods, achieving higher success rates, improved energy efficiency, and better adherence to safety constraints.
- Abstract(参考訳): 無構造屋外環境における自律航法は、上り坂と下り坂の移動に対するエネルギー支出の変動など、非対称な交通費の存在により本質的に困難である。
従来の強化学習手法は、しばしば対称的なコストを前提としており、現実のシナリオにおける最適下航法や安全性のリスクを増大させる可能性がある。
本稿では,非対称なコストを明示的にモデル化し,効率的で安全なナビゲーションを支援するために,擬似的埋め込みを統合した新しい強化学習フレームワークであるQuasiNavを紹介する。
QuasiNavは、ナビゲーション問題を制約付きマルコフ決定プロセス(CMDP)として定式化し、方向依存のコストを捉えるために擬似埋め込みを用いて、より正確な地形表現を可能にしている。
このアプローチは、制約付きポリシー最適化フレームワーク内の適応的制約強化と組み合わせて、学習中の安全性制約を動的に強制する。
シミュレーションと実世界の両環境での有効性を実証するため,QuasiNavを3つの難解なナビゲーションシナリオ,非対称な丘陵トラバーサル,方向依存的な地形で検証した。
実験結果から,QuasiNavは従来の手法よりも優れ,高い成功率,エネルギー効率の向上,安全性の制約の遵守性が向上していることがわかった。
関連論文リスト
- Evaluating Robustness of Reinforcement Learning Algorithms for Autonomous Shipping [2.9109581496560044]
本稿では,自律型海運シミュレータにおける内陸水路輸送(IWT)のために実装されたベンチマークディープ強化学習(RL)アルゴリズムのロバスト性について検討する。
モデルのないアプローチはシミュレーターで適切なポリシーを達成でき、訓練中に遭遇したことのないポート環境をナビゲートすることに成功した。
論文 参考訳(メタデータ) (2024-11-07T17:55:07Z) - Enhanced Safety in Autonomous Driving: Integrating Latent State Diffusion Model for End-to-End Navigation [5.928213664340974]
本研究は自動運転の制御最適化問題における安全性問題に対処する。
本稿では,条件付きバリュー・アット・リスクに基づくソフトアクター批判を利用して,ポリシー最適化のための新しいモデルベースアプローチを提案する。
本手法では, 安全探索を誘導する最悪のアクターを導入し, 予測不可能なシナリオにおいても, 安全要件の厳密な遵守を確保する。
論文 参考訳(メタデータ) (2024-07-08T18:32:40Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy [34.19779754333234]
本研究では,不確実性を考慮したトラクションモデルを学習し,リスクを考慮したトラジェクトリを計画するための統一的なフレームワークを提案する。
ネットワーク出力を用いてディリクレ分布をパラメータ化し、新しい不確実性を考慮した2乗地球モーバー距離損失を提案する。
我々のアプローチはシミュレーションや車輪付き四足歩行ロボットで広範囲に検証されている。
論文 参考訳(メタデータ) (2023-11-10T18:49:53Z) - Integrating Higher-Order Dynamics and Roadway-Compliance into
Constrained ILQR-based Trajectory Planning for Autonomous Vehicles [3.200238632208686]
軌道計画は、自動運転車のグローバルな最適ルートを作成することを目的としている。
既存の自転車キネマティックモデルを用いた実装では、制御可能な軌道は保証できない。
このモデルを、曲率と長手ジャークの1階および2階微分を含む高階項で拡張する。
論文 参考訳(メタデータ) (2023-09-25T22:30:18Z) - CCE: Sample Efficient Sparse Reward Policy Learning for Robotic Navigation via Confidence-Controlled Exploration [72.24964965882783]
CCE (Confidence-Controlled Exploration) は、ロボットナビゲーションのようなスパース報酬設定のための強化学習アルゴリズムのトレーニングサンプル効率を高めるために設計された。
CCEは、勾配推定と政策エントロピーの間の新しい関係に基づいている。
我々は、CCEが一定軌跡長とエントロピー正規化を用いる従来の手法より優れるシミュレーションおよび実世界の実験を通して実証する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - MLNav: Learning to Safely Navigate on Martian Terrains [25.42849032622348]
MLNavは,安全クリティカルで資源に制限のあるシステムのための学習支援パス計画フレームワークである。
MLNavは、安全制約を完全に尊重しながら、経路計画の効率を高めるために、機械学習を司法的に利用している。
我々は,火星の実際の地形データと,難易度の高い合成地形データを用いて高忠実度シミュレーションを検証した。
論文 参考訳(メタデータ) (2022-03-09T07:53:15Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。
本手法は,逆強化学習問題の誤った性質に対処する。
本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文 参考訳(メタデータ) (2021-02-12T12:32:02Z) - Reinforcement Learning for Low-Thrust Trajectory Design of
Interplanetary Missions [77.34726150561087]
本稿では, 惑星間軌道のロバスト設計における強化学習の適用について検討する。
最先端アルゴリズムのオープンソース実装が採用されている。
その結果得られた誘導制御ネットワークは、堅牢な名目的軌道と関連する閉ループ誘導法の両方を提供する。
論文 参考訳(メタデータ) (2020-08-19T15:22:15Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。