論文の概要: A Comparison of Reinforcement Learning and Optimal Control Methods for Path Planning
- arxiv url: http://arxiv.org/abs/2604.12628v1
- Date: Tue, 14 Apr 2026 11:55:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.422093
- Title: A Comparison of Reinforcement Learning and Optimal Control Methods for Path Planning
- Title(参考訳): 経路計画のための強化学習と最適制御法の比較
- Authors: Qiang Le, Yaguang Yang, Isaac E. Weintraub,
- Abstract要約: 脅威に満ちた環境での自動運転車のパスプランニングは、根本的な課題である。
本稿では,Deep Deterministic Policy Gradient (DDPG) に基づく手法を提案する。
ミッション失敗は、車両がいつでもこのノーゴーゾーンに入るか、目的地の近傍に到達しない場合である。
- 参考スコア(独自算出の注目度): 0.3823356975862005
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Path-planning for autonomous vehicles in threat-laden environments is a fundamental challenge. While traditional optimal control methods can find ideal paths, the computational time is often too slow for real-time decision-making. To solve this challenge, we propose a method based on Deep Deterministic Policy Gradient (DDPG) and model the threat as a simple, circular `no-go' zone. A mission failure is claimed if the vehicle enters this `no-go' zone at any time or does not reach a neighborhood of the destination. The DDPG agent is trained to learn a direct mapping from its current state (position and velocity) to a series of feasible actions that guide the agent to safely reach its goal. A reward function and two neural networks, critic and actor, are used to describe the environment and guide the control efforts. The DDPG trains the agent to find the largest possible set of starting points (``feasible set'') wherein a safe path to the goal is guaranteed. This provides critical information for mission planning, showing beforehand whether a task is achievable from a given starting point, assisting pre-mission planning activities. The approach is validated in simulation. A comparison between the DDPG method and a traditional optimal control (pseudo-spectral) method is carried out. The results show that the learning-based agent may produce effective paths while being significantly faster, making it a better fit for real-time applications. However, there are areas (``infeasible set'') where the DDPG agent cannot find paths to the destination, and the paths in the feasible set may not be optimal. These preliminary results guide our future research: (1) improve the reward function to enlarge the DDPG feasible set, (2) examine the feasible set obtained by the pseudo-spectral method, and (3) investigate the arc-search IPM method for the path planning problem.
- Abstract(参考訳): 脅威に満ちた環境での自動運転車のパスプランニングは、根本的な課題である。
従来の最適制御手法は理想的な経路を見つけることができるが、計算時間はリアルタイムな意思決定には遅すぎることが多い。
この課題を解決するために,Deep Deterministic Policy Gradient (DDPG) に基づく手法を提案し,その脅威を単純な円形の「no-go」ゾーンとしてモデル化する。
ミッション失敗は、車両がいつでもこの"no-go"ゾーンに入るか、目的地の近傍に到達しない場合である。
DDPGエージェントは、現在の状態(位置と速度)からエージェントが安全に目標に到達するための一連の実行可能なアクションへの直接的なマッピングを学ぶように訓練される。
報酬関数と、批評家とアクターの2つのニューラルネットワークは、環境を記述し、制御の取り組みを導くために使用される。
DDPGはエージェントをトレーニングして、ゴールへの安全な経路が保証されている最大の開始点(``feasible set'')を見つける。
これは、ミッション計画において重要な情報を提供し、事前に、タスクが所定の出発点から達成可能かどうかを示し、プレミッション計画活動を支援する。
この手法はシミュレーションで検証されている。
DDPG法と従来の最適制御法(擬スペクトル法)との比較を行った。
その結果,学習ベースエージェントは極めて高速でありながら効果的な経路を生成する可能性があり,リアルタイムアプリケーションに適していることが示唆された。
しかし、DDPGエージェントが目的地へのパスを見つけられない領域(`infeasible set'')があり、実現可能な集合内のパスは最適ではないかもしれない。
これらの予備的な結果は,(1)報奨関数の改善によるDDPG実現可能性セットの拡大,(2)疑似スペクトル法による実現可能性セットの検討,(3)経路計画問題に対するアークサーベイIMM法の検討,といった今後の研究を導くものである。
関連論文リスト
- Autonomous Vehicle Path Planning by Searching With Differentiable Simulation [55.46735086899153]
計画では、エージェントが現実世界で実行する前に、アクションを安全に洗練することができる。
自動運転では、衝突を避け、複雑な密集した交通シナリオをナビゲートすることが不可欠である。
本稿では、微分可能シミュレータWaymaxを次の状態予測と批判の両方として活用するフレームワークである、微分可能探索シミュレーション(DSS)を提案する。
論文 参考訳(メタデータ) (2025-11-14T07:56:34Z) - Tree-Guided Diffusion Planner [31.664192839205608]
事前訓練された拡散を伴う計画がテストタイム誘導制御問題に対する有望なアプローチとして浮上した。
本研究では、構造化軌道生成による探索と利用のバランスをとるゼロ時間テストタイム計画フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T17:27:44Z) - Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling [74.41886258801209]
本稿では,行動学習から原理的アライメントを分離する2段階の軌道計画フレームワークを提案する。
Plan-R1は計画の安全性と実現可能性を大幅に改善し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-05-23T09:22:19Z) - Path Planning in a dynamic environment using Spherical Particle Swarm Optimization [0.0]
本研究では, 球面ベクトルを用いた粒子群最適化技術を用いたUAV用動的パスプランナ(DPP)を提案する。
経路は、チェックポイントを再計画する一組の経路として構築されている。経路長、安全、姿勢、経路平滑性はすべて、最適な経路がどうあるべきかを決定する上で考慮される。
実際のデジタル標高モデルを用いて4つのテストシナリオが実施される。それぞれのテストは、SPSO-DPPが安全で効率的な経路セグメントを生成することができるかを示すために、パスの長さと安全性に異なる優先順位を与える。
論文 参考訳(メタデータ) (2024-03-19T13:56:34Z) - Model Checking for Closed-Loop Robot Reactive Planning [0.0]
モデル検査を用いて、ディファレンシャルドライブホイールロボットの多段階計画を作成することにより、即時危険を回避できることを示す。
簡単な生物エージェントのエゴセントリックな反応を反映した,小型で汎用的なモデル検査アルゴリズムを用いて,リアルタイムで計画を生成する。
論文 参考訳(メタデータ) (2023-11-16T11:02:29Z) - Learn to Follow: Decentralized Lifelong Multi-agent Pathfinding via
Planning and Learning [46.354187895184154]
マルチエージェントパスフィンディング(MAPF)問題は通常、グラフに制限されたエージェントの集合に対する競合のないパスの集合を見つけるよう要求する。
本研究では,エージェントの位置や目標に関する情報をすべて収集する中央制御器が存在しない場合の分散MAPF設定について検討する。
我々は,先行するエージェントに新たな目標を連続的に割り当てることを含むMAPFの実用上重要な寿命変化に焦点をあてる。
論文 参考訳(メタデータ) (2023-10-02T13:51:32Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - POMP: Pomcp-based Online Motion Planning for active visual search in
indoor environments [89.43830036483901]
本稿では, 屋内環境におけるオブジェクトのアクティブビジュアルサーチ(AVS)の最適ポリシーを, オンライン設定で学習する問題に焦点をあてる。
提案手法はエージェントの現在のポーズとRGB-Dフレームを入力として使用する。
提案手法を利用可能なAVDベンチマークで検証し,平均成功率0.76,平均パス長17.1とした。
論文 参考訳(メタデータ) (2020-09-17T08:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。