論文の概要: GPU-accelerated Optimal Path Planning in Stochastic Dynamic Environments
- arxiv url: http://arxiv.org/abs/2109.00857v1
- Date: Thu, 2 Sep 2021 12:14:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-03 13:48:05.190178
- Title: GPU-accelerated Optimal Path Planning in Stochastic Dynamic Environments
- Title(参考訳): 確率的動的環境におけるGPU加速最適経路計画
- Authors: Rohit Chowdhury, Deepak Subramani
- Abstract要約: 自律型海洋車両の計画時間とエネルギー最適経路は、運用コストを削減するために不可欠である。
意思決定プロセス(MDP)は、そのような環境でロボットエージェントのシーケンシャルな意思決定のための自然な枠組みを提供する。
我々は、MDPモデルを構築し、MDPを解き、最適なポリシーを演算する効率的なエンドツーエンド高速化アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Autonomous marine vehicles play an essential role in many ocean science and
engineering applications. Planning time and energy optimal paths for these
vehicles to navigate in stochastic dynamic ocean environments is essential to
reduce operational costs. In some missions, they must also harvest solar, wind,
or wave energy (modeled as a stochastic scalar field) and move in optimal paths
that minimize net energy consumption. Markov Decision Processes (MDPs) provide
a natural framework for sequential decision-making for robotic agents in such
environments. However, building a realistic model and solving the modeled MDP
becomes computationally expensive in large-scale real-time applications,
warranting the need for parallel algorithms and efficient implementation. In
the present work, we introduce an efficient end-to-end GPU-accelerated
algorithm that (i) builds the MDP model (computing transition probabilities and
expected one-step rewards); and (ii) solves the MDP to compute an optimal
policy. We develop methodical and algorithmic solutions to overcome the limited
global memory of GPUs by (i) using a dynamic reduced-order representation of
the ocean flows, (ii) leveraging the sparse nature of the state transition
probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv)
proving that it is sufficient to use only the stochastic scalar field's mean to
compute the expected one-step rewards for missions involving energy harvesting
from the environment; thereby saving memory and reducing the computational
effort. We demonstrate the algorithm on a simulated stochastic dynamic
environment and highlight that it builds the MDP model and computes the optimal
policy 600-1000x faster than conventional CPU implementations, making it
suitable for real-time use.
- Abstract(参考訳): 自律的な海洋車両は多くの海洋科学と工学の応用において重要な役割を担っている。
これらの車両が確率的な動的海洋環境を航行するための計画時間とエネルギーの最適経路は、運用コストの削減に不可欠である。
いくつかのミッションでは、太陽、風または波のエネルギー(確率的スカラー場としてモデル化)を収穫し、純エネルギー消費を最小化する最適な経路を移動する必要がある。
マルコフ決定プロセス(MDP)は、そのような環境でロボットエージェントのシーケンシャルな意思決定のための自然なフレームワークを提供する。
しかし、現実的なモデルを構築し、モデル化されたMDPを解くことは、大規模リアルタイムアプリケーションでは計算コストが高くなり、並列アルゴリズムと効率的な実装の必要性が保証される。
本研究では, MDPモデル(遷移確率と期待される1ステップの報奨を計算)を構築し, (ii) 最適ポリシーを計算するためにMDPを解く,効率的なエンドツーエンドGPU高速化アルゴリズムを提案する。
We develop methodical and algorithmic solutions to overcome the limited global memory of GPUs by (i) using a dynamic reduced-order representation of the ocean flows, (ii) leveraging the sparse nature of the state transition probability matrix, (iii) introducing a neighbouring sub-grid concept and (iv) proving that it is sufficient to use only the stochastic scalar field's mean to compute the expected one-step rewards for missions involving energy harvesting from the environment; thereby saving memory and reducing the computational effort.
MDPモデルを構築し,従来のCPU実装よりも600-1000倍高速に最適ポリシを計算し,リアルタイム利用に適したアルゴリズムであることを示す。
関連論文リスト
- Metamizer: a versatile neural optimizer for fast and accurate physics simulations [4.717325308876749]
本稿では,広範囲の物理システムを高精度で反復的に解く,新しいニューラルネットワークであるMetamizerを紹介する。
我々は,メタマイザがディープラーニングに基づくアプローチにおいて,前例のない精度で達成できることを実証した。
以上の結果から,メタミザーは将来の数値解法に大きな影響を与える可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-10T11:54:31Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Input Convex Lipschitz RNN: A Fast and Robust Approach for Engineering Tasks [14.835081385422653]
入力凸リプシッツリカレントニューラルネットワークと呼ばれる新しいネットワークアーキテクチャを開発した。
このモデルは、高速で堅牢な最適化ベースのタスクのために明示的に設計されている。
我々は、様々な実用工学的応用でこのモデルを成功裏に実装した。
論文 参考訳(メタデータ) (2024-01-15T06:26:53Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - DDPEN: Trajectory Optimisation With Sub Goal Generation Model [70.36888514074022]
本稿では,エスケープネットワークを用いた微分動的プログラミング(DDPEN)を提案する。
本稿では,環境の入力マップとして,所望の位置とともにコストマップの形で利用する深層モデルを提案する。
このモデルは、目標に導く可能性のある将来の方向を生成し、リアルタイムに実行可能なローカルなミニマを避ける。
論文 参考訳(メタデータ) (2023-01-18T11:02:06Z) - Neural Stochastic Dual Dynamic Programming [99.80617899593526]
我々は、問題インスタンスを断片的線形値関数にマッピングすることを学ぶトレーニング可能なニューラルモデルを導入する。
$nu$-SDDPは、ソリューションの品質を犠牲にすることなく、問題解決コストを大幅に削減できる。
論文 参考訳(メタデータ) (2021-12-01T22:55:23Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - MPC-MPNet: Model-Predictive Motion Planning Networks for Fast,
Near-Optimal Planning under Kinodynamic Constraints [15.608546987158613]
Kinodynamic Motion Planning (KMP) は、ロボットの動きを同時に運動学や力学の制約を受ける計算である。
ほぼ最適経路の解を求める,スケーラブルで模倣可能なモデル予測型運動計画ネットワークフレームワークを提案する。
提案アルゴリズムは, 時間, 経路特性, 既存手法に対する成功率の大幅な改善を示す結果から, 乱雑な, キノダイナミックに制約された, 不安定な計画上の問題に対して評価を行う。
論文 参考訳(メタデータ) (2021-01-17T23:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。