論文の概要: Perturbation-mitigated USV Navigation with Distributionally Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.00030v1
- Date: Sat, 08 Nov 2025 04:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.395387
- Title: Perturbation-mitigated USV Navigation with Distributionally Robust Reinforcement Learning
- Title(参考訳): 分散ロバスト強化学習を用いた摂動緩和型USVナビゲーション
- Authors: Zhaofan Zhang, Minghao Yang, Sihong Xie, Hui Xiong,
- Abstract要約: 本研究では,自然環境下での最悪の性能を最適化するために,分布ロバスト最適化を暗黙の量子ネットワークに統合するDRIQNを提案する。
DRIQNは最先端の手法を著しく上回り, +13.51%の成功率, 12.28%の衝突速度, +35.46%の時間節約率を達成した。
- 参考スコア(独自算出の注目度): 21.106380508631236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness of Unmanned Surface Vehicles (USV) is crucial when facing unknown and complex marine environments, especially when heteroscedastic observational noise poses significant challenges to sensor-based navigation tasks. Recently, Distributional Reinforcement Learning (DistRL) has shown promising results in some challenging autonomous navigation tasks without prior environmental information. However, these methods overlook situations where noise patterns vary across different environmental conditions, hindering safe navigation and disrupting the learning of value functions. To address the problem, we propose DRIQN to integrate Distributionally Robust Optimization (DRO) with implicit quantile networks to optimize worst-case performance under natural environmental conditions. Leveraging explicit subgroup modeling in the replay buffer, DRIQN incorporates heterogeneous noise sources and target robustness-critical scenarios. Experimental results based on the risk-sensitive environment demonstrate that DRIQN significantly outperforms state-of-the-art methods, achieving +13.51\% success rate, -12.28\% collision rate and +35.46\% for time saving, +27.99\% for energy saving, compared with the runner-up.
- Abstract(参考訳): 非有人表面車両(USV)のロバスト性は、未知の複雑な海洋環境に直面する場合、特に非定常的な観測ノイズがセンサーベースのナビゲーションタスクに重大な課題をもたらす場合において重要である。
近年、DistRL(Dis Distributional Reinforcement Learning)は、事前の環境情報のない自律的なナビゲーションタスクにおいて有望な結果を示している。
しかし, これらの手法は, 環境条件によってノイズパターンが変化する状況を見落とし, 安全なナビゲーションを阻害し, 価値関数の学習を阻害する。
そこで本研究では,DRO(Distributedally Robust Optimization)と暗黙的な量子ネットワークを統合し,環境条件下での最悪の性能を最適化するDRIQNを提案する。
リプレイバッファで明示的なサブグループモデリングを活用することで、DRIQNは異種ノイズ源とロバストネスクリティカルシナリオを組み込む。
リスクに敏感な環境に基づく実験の結果、DRIQNは最先端の手法を著しく上回り、成功率+13.51\%、衝突速度-12.28\%、時間節約+35.46\%、エネルギー節約+27.99\%を達成した。
関連論文リスト
- Depth-Constrained ASV Navigation with Deep RL and Limited Sensing [43.785833390490446]
本研究では,深度制約下でのASVナビゲーションのための強化学習フレームワークを提案する。
環境意識を高めるため,GPレグレッションをRLフレームワークに統合する。
我々は,実世界の水環境に対して,訓練された政策が適切に一般化されることを保証する効果的なシミュレート・トゥ・リアル・トランスファーを実証する。
論文 参考訳(メタデータ) (2025-04-25T10:56:56Z) - Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction [69.38041171537573]
水質は環境の持続可能性、生態系の回復力、公衆衛生に基礎を置いている。
ディープラーニングは、大規模な水質予測と科学的洞察生成のための変革的なポテンシャルを提供する。
汚染緩和や資源配分等、高額な運用上の意思決定に広く採用されていることは、未解決の信頼性の課題によって防止されている。
論文 参考訳(メタデータ) (2025-03-13T01:50:50Z) - EVORA: Deep Evidential Traversability Learning for Risk-Aware Off-Road Autonomy [34.19779754333234]
本研究では,不確実性を考慮したトラクションモデルを学習し,リスクを考慮したトラジェクトリを計画するための統一的なフレームワークを提案する。
ネットワーク出力を用いてディリクレ分布をパラメータ化し、新しい不確実性を考慮した2乗地球モーバー距離損失を提案する。
我々のアプローチはシミュレーションや車輪付き四足歩行ロボットで広範囲に検証されている。
論文 参考訳(メタデータ) (2023-11-10T18:49:53Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Censored Deep Reinforcement Patrolling with Information Criterion for
Monitoring Large Water Resources using Autonomous Surface Vehicles [0.0]
本研究は,自律走行車を用いた大規模水資源モニタリングの枠組みを提案する。
データに対する不確実性低減の尺度として情報ゲインを用いて,モデルに基づく障害物回避のためのQ-Censoring機構によって改良されたディープQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-12T07:33:46Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Robust Reconfigurable Intelligent Surfaces via Invariant Risk and Causal
Representations [55.50218493466906]
本稿では,データ分布の変化に伴うロバスト再構成可能なインテリジェントサーフェス(ris)システム設計の問題について検討する。
不変リスク最小化(IRM)の概念を用いて、複数の環境にまたがる不変因果表現を用いて、予測器が各環境に対して同時に最適となるようにする。
予測器を探すためにニューラルネットワークベースのソリューションを採用し、その性能は経験的リスク最小化に基づく設計に対するシミュレーションによって検証される。
論文 参考訳(メタデータ) (2021-05-04T21:36:31Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。