論文の概要: Critic-Free Deep Reinforcement Learning for Maritime Coverage Path Planning on Irregular Hexagonal Grids
- arxiv url: http://arxiv.org/abs/2603.28385v1
- Date: Mon, 30 Mar 2026 12:56:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.40047
- Title: Critic-Free Deep Reinforcement Learning for Maritime Coverage Path Planning on Irregular Hexagonal Grids
- Title(参考訳): 不規則ヘキサゴナルグリッドを用いた海面被覆経路計画のための批判自由深層強化学習
- Authors: Carlos S. Sepúlveda, Gonzalo A. Ruz,
- Abstract要約: 海上監視任務は、広大で幾何学的に複雑な領域におけるセンシング資産の効率的な配分に依存している。
伝統的なカバー・パス・プランニングアプローチは不規則な海岸線、島々、および排他的地域と戦っている。
本研究では,不規則海域の六角形格子表現においてCPPを解くための深層強化学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maritime surveillance missions, such as search and rescue and environmental monitoring, rely on the efficient allocation of sensing assets over vast and geometrically complex areas. Traditional Coverage Path Planning (CPP) approaches depend on decomposition techniques that struggle with irregular coastlines, islands, and exclusion zones, or require computationally expensive re-planning for every instance. We propose a Deep Reinforcement Learning (DRL) framework to solve CPP on hexagonal grid representations of irregular maritime areas. Unlike conventional methods, we formulate the problem as a neural combinatorial optimization task where a Transformer-based pointer policy autoregressively constructs coverage tours. To overcome the instability of value estimation in long-horizon routing problems, we implement a critic-free Group-Relative Policy Optimization (GRPO) scheme. This method estimates advantages through within-instance comparisons of sampled trajectories rather than relying on a value function. Experiments on 1,000 unseen synthetic maritime environments demonstrate that a trained policy achieves a 99.0% Hamiltonian success rate, more than double the best heuristic (46.0%), while producing paths 7% shorter and with 24% fewer heading changes than the closest baseline. All three inference modes (greedy, stochastic sampling, and sampling with 2-opt refinement) operate under 50~ms per instance on a laptop GPU, confirming feasibility for real-time on-board deployment.
- Abstract(参考訳): 捜索・救助・環境監視などの海上監視任務は、広大で幾何学的に複雑な領域におけるセンサ資産の効率的な配分に依存している。
伝統的な被覆経路計画 (CPP) のアプローチは、不規則な海岸線、島々、排他的地帯に苦しむ分解技術に依存している。
本研究では,不規則海域の六角形格子表現におけるCPPの解法として,深層強化学習(DRL)フレームワークを提案する。
従来の手法とは異なり、Transformerベースのポインタポリシーがカバレッジツアーを自動構築するニューラル組合せ最適化タスクとして問題を定式化する。
長距離ルーティング問題における値推定の不安定性を克服するため,批判のないグループ相対ポリシー最適化(GRPO)方式を実装した。
本手法は, 値関数に依存するのではなく, サンプル軌道のインスタンス内比較による利点を推定する。
1000の見当たらない合成海洋環境の実験では、訓練された政策がハミルトンの成功率99.0%、最良のヒューリスティック(46.0%)の2倍以上を達成する一方で、経路が7%短く、方向変更が最寄りのベースラインよりも24%少ないことが示されている。
3つの推論モード(グリージー、確率サンプリング、および2オプトリファインメントによるサンプリング)はすべて、インスタンス毎50~ms以下でラップトップGPU上で動作し、リアルタイムのオンボードデプロイメントの実現性を確認する。
関連論文リスト
- Viewpoint-Agnostic Grasp Pipeline using VLM and Partial Observations [0.6263680699548958]
本稿では,言語誘導型把握のためのエンドツーエンドパイプラインを提案し,実際のロボット上での動作を安全に把握するために,自由語彙選択をブリッジする。
自然言語コマンドを与えられたシステムは、オープン語彙検出と即時インスタンスセグメンテーションを使用して、ターゲットをRGBにグラウンドする。
次に、衝突フィルタ6-DoFグルーピング候補を生成し、到達可能性、アプローチ可能性、クリアランスを考慮に入れた安全指向のグルーピングを用いて実行可能なグルーピングを選択する。
論文 参考訳(メタデータ) (2026-03-09T00:42:32Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Sequential Bayesian Optimal Experimental Design in Infinite Dimensions via Policy Gradient Reinforcement Learning [3.2580743227673694]
高忠実性アプローチでは、ネストしたベイズ反転と設計ループの中で、繰り返し前方および随伴したPDEが解かれる。
我々は、SBOEDを有限水平マルコフ決定プロセスとして定式化し、ポリシー段階の強化学習を通じて、償却設計ポリシーを学習する。
汚染源追跡のための逐次マルチセンサ配置に関する数値実験は、高忠実度有限要素法よりも約100倍のスピードアップを示す。
論文 参考訳(メタデータ) (2026-01-09T15:44:49Z) - Autonomous UAV Flight Navigation in Confined Spaces: A Reinforcement Learning Approach [0.6533458718563319]
オフ・ポリティクスの手法は、高価で安全でない現実世界の微調整を最小化するための重要な特徴である、高いサンプル効率を約束する。
オン・ポリティクス法は、しばしばより優れた訓練安定性を示すが、これはハザード・センス環境における信頼性の高い収束に不可欠である。
この研究は、高精度で安全クリティカルなナビゲーションタスクにおいて、確立されたオン・ポリティクスの信頼性の高い収束は、オフ・ポリティック・アルゴリズムの特異なサンプル効率よりも決定的であることを示す。
論文 参考訳(メタデータ) (2025-08-22T21:29:59Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Zonal RL-RRT: Integrated RL-RRT Path Planning with Collision Probability and Zone Connectivity [11.134855513221359]
そこで本研究では,kd-treeパーティショニングを利用した経路計画アルゴリズムZalnal RL-RRTを導入し,ゾーン接続に対処しながらマップをゾーンに分割する。
本アルゴリズムは,森林マップにおけるRTやRT*などの基本サンプリング手法と比較して,時間効率を3倍に向上させる。
NeuralRRT*やMPNetSMPのような学習ベースの手法やRT*Jと比較して、我々のアルゴリズムは平均して、同じ環境での1.5倍の性能を示す。
論文 参考訳(メタデータ) (2024-10-31T17:57:51Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Deep reinforcement learning for optimal well control in subsurface
systems with uncertain geology [0.0]
深部強化学習(DRL)に基づく一般制御政策枠組みを導入し, 地下流れにおける閉ループ決定について検討した。
DRLに基づく手法は、従来のモデルよりも頑健な最適化と比較して、NPVの15%(2Dの場合)と33%(3Dの場合)の増加をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-03-24T22:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。