論文の概要: Goal-Conditioned Reinforcement Learning for Data-Driven Maritime Navigation
- arxiv url: http://arxiv.org/abs/2509.01838v1
- Date: Mon, 01 Sep 2025 23:42:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.862244
- Title: Goal-Conditioned Reinforcement Learning for Data-Driven Maritime Navigation
- Title(参考訳): データ駆動海洋航法のためのゴールコンディション強化学習
- Authors: Vaishnav Vaidheeswaran, Dilith Jayakody, Samruddhi Mulay, Anand Lo, Md Mahbub Alam, Gabriel Spadon,
- Abstract要約: 本稿では,複数の原点・終点を横断する経路を学習できる大規模海洋データに対する強化学習ソリューションを提案する。
エージェントは、複数の離散的なアクション空間において、連続的な観察の下で方向と速度を選択することを学ぶ。
報奨関数は、ERA5風力場を持つAIS(Automatic Identification System)由来の交通グラフを用いて、燃料効率、走行時間、耐風性、経路の多様性のバランスをとる。
- 参考スコア(独自算出の注目度): 1.2773749417703923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Routing vessels through narrow and dynamic waterways is challenging due to changing environmental conditions and operational constraints. Existing vessel-routing studies typically fail to generalize across multiple origin-destination pairs and do not exploit large-scale, data-driven traffic graphs. In this paper, we propose a reinforcement learning solution for big maritime data that can learn to find a route across multiple origin-destination pairs while adapting to different hexagonal grid resolutions. Agents learn to select direction and speed under continuous observations in a multi-discrete action space. A reward function balances fuel efficiency, travel time, wind resistance, and route diversity, using an Automatic Identification System (AIS)-derived traffic graph with ERA5 wind fields. The approach is demonstrated in the Gulf of St. Lawrence, one of the largest estuaries in the world. We evaluate configurations that combine Proximal Policy Optimization with recurrent networks, invalid-action masking, and exploration strategies. Our experiments demonstrate that action masking yields a clear improvement in policy performance and that supplementing penalty-only feedback with positive shaping rewards produces additional gains.
- Abstract(参考訳): 環境条件や運用上の制約が変化するため、狭い水路を航行する船舶は困難である。
既存のコンテナルーティング研究は、通常、複数のオリジン・ディセプション・ペアをまたいだ一般化に失敗し、大規模でデータ駆動のトラヒックグラフを利用できない。
本論文では,異なる六角形格子の解像度に適応しつつ,複数の原点-終点対をまたぐ経路を学習できる大規模海洋データに対する強化学習ソリューションを提案する。
エージェントは、複数の離散的なアクション空間において、連続的な観察の下で方向と速度を選択することを学ぶ。
報奨関数は、ERA5風力場を持つAIS(Automatic Identification System)由来の交通グラフを用いて、燃料効率、走行時間、耐風性、経路の多様性のバランスをとる。
このアプローチは、世界最大の河口の一つであるセントローレンス湾で実証されている。
本稿では,提案手法と繰り返しネットワーク,無効動作マスキング,探索戦略を併用した構成評価を行う。
本実験は, 行動マスキングが政策性能の明確な改善をもたらすことを実証し, プラス形成報酬によるペナルティのみのフィードバックを補うことで, さらなる利益をもたらすことを示した。
関連論文リスト
- Vision-Based Deep Reinforcement Learning of UAV Autonomous Navigation Using Privileged Information [6.371251946803415]
DPRLは、部分的に観測可能な環境下での高速無人無人飛行の課題に対処するために設計されたエンドツーエンドのポリシーである。
非対称なアクター・クライブアーキテクチャを利用して、トレーニング中にエージェントに特権情報を提供する。
我々は、DPRLアルゴリズムを最先端のナビゲーションアルゴリズムと比較し、様々なシナリオにまたがって広範なシミュレーションを行う。
論文 参考訳(メタデータ) (2024-12-09T09:05:52Z) - Confidence-Controlled Exploration: Efficient Sparse-Reward Policy Learning for Robot Navigation [72.24964965882783]
強化学習(RL)はロボットナビゲーションにおいて有望なアプローチであり、ロボットは試行錯誤を通じて学習することができる。
現実世界のロボットタスクは、しばしばまばらな報酬に悩まされ、非効率な探索と準最適政策に繋がる。
本稿では,RLに基づくロボットナビゲーションにおいて,報酬関数を変更せずにサンプル効率を向上させる新しい手法であるConfidence-Controlled Exploration (CCE)を紹介する。
論文 参考訳(メタデータ) (2023-06-09T18:45:15Z) - Learning Multi-Pursuit Evasion for Safe Targeted Navigation of Drones [0.0]
本稿では,非同期多段階深部強化学習(AMS-DRL)による対向ニューラルネットワークの学習手法を提案する。
AMS-DRLは、追従者および回避者を二部グラフで非同期に訓練する追従回避ゲームにおいて、敵エージェントを進化させる。
本手法を広範囲なシミュレーションで評価し,航法成功率の高いベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-07T01:59:16Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Divide-and-Conquer for Lane-Aware Diverse Trajectory Prediction [71.97877759413272]
軌道予測は、自動運転車が行動を計画し実行するための安全クリティカルなツールです。
近年の手法は,WTAやベスト・オブ・マニーといったマルチコース学習の目標を用いて,強力なパフォーマンスを実現している。
我々の研究は、軌道予測、学習出力、そして運転知識を使って制約を課すことによるより良い予測における2つの重要な課題に対処する。
論文 参考訳(メタデータ) (2021-04-16T17:58:56Z) - Autonomous Navigation through intersections with Graph
ConvolutionalNetworks and Conditional Imitation Learning for Self-driving
Cars [10.080958939027363]
自動運転では、信号のない交差点を通るナビゲーションは難しい作業だ。
ナビゲーションポリシー学習のための新しい分岐ネットワークG-CILを提案する。
エンドツーエンドのトレーニング可能なニューラルネットワークは、より高い成功率と短いナビゲーション時間でベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-01T07:33:12Z) - An End-to-end Deep Reinforcement Learning Approach for the Long-term
Short-term Planning on the Frenet Space [0.0]
本稿では,自動運転車の意思決定と動作計画に向けた,エンドツーエンドの継続的強化学習手法を提案する。
初めて、Frenet空間上の状態と行動空間の両方を定義して、走行挙動を道路曲率に変化させないようにする。
このアルゴリズムは、フィードバックコントローラが追跡するFrenetフレーム上で連続時間軌道を生成する。
論文 参考訳(メタデータ) (2020-11-26T02:40:07Z) - Data Freshness and Energy-Efficient UAV Navigation Optimization: A Deep
Reinforcement Learning Approach [88.45509934702913]
我々は、移動基地局(BS)が配備される複数の無人航空機(UAV)のナビゲーションポリシーを設計する。
我々は、地上BSにおけるデータの鮮度を確保するために、エネルギーや情報年齢(AoI)の制約などの異なる文脈情報を組み込んだ。
提案したトレーニングモデルを適用することで、UAV-BSに対する効果的なリアルタイム軌道ポリシーは、時間とともに観測可能なネットワーク状態をキャプチャする。
論文 参考訳(メタデータ) (2020-02-21T07:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。