論文の概要: HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios
- arxiv url: http://arxiv.org/abs/2405.20579v1
- Date: Fri, 31 May 2024 02:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:46:08.112327
- Title: HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios
- Title(参考訳): HOPE: 多様なパーキングシナリオのための強化学習型ハイブリッドポリシーパスプランナ
- Authors: Mingyang Jiang, Yueyuan Li, Songan Zhang, Chunxiang Wang, Ming Yang,
- Abstract要約: 本稿では,強化学習エージェントとReeds-Shepp曲線を統合したHybrid POlicy Path PlannEr(HOPE)を提案する。
ネットワーク構造としてトランスフォーマーを用いて、環境情報を融合し、計画された経路を生成する。
実験の結果,本手法は一般的なルールベースアルゴリズムや従来の強化学習法よりも優れていた。
- 参考スコア(独自算出の注目度): 19.166334797499996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Path planning plays a pivotal role in automated parking, yet current methods struggle to efficiently handle the intricate and diverse parking scenarios. One potential solution is the reinforcement learning-based method, leveraging its exploration in unrecorded situations. However, a key challenge lies in training reinforcement learning methods is the inherent randomness in converging to a feasible policy. This paper introduces a novel solution, the Hybrid POlicy Path plannEr (HOPE), which integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. The paper presents a method to calculate and implement an action mask mechanism in path planning, significantly boosting the efficiency and effectiveness of reinforcement learning training. A transformer is employed as the network structure to fuse environmental information and generate planned paths. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showcasing higher planning success rates and generalization across various scenarios. The code for our solution will be openly available on \href{GitHub}{https://github.com/jiamiya/HOPE}. % after the paper's acceptance.
- Abstract(参考訳): パスプランニングは自動駐車において重要な役割を担っているが、現在の方法は複雑で多様な駐車シナリオを効率的に扱うのに苦労している。
潜在的な解決策の1つは、記録されていない状況での探索を活用する強化学習に基づく手法である。
しかし、強化学習法の訓練において重要な課題は、実現可能な政策に収束する際の固有のランダム性である。
本稿では,強化学習エージェントとReeds-Shepp曲線を統合したHybrid POlicy Path PlannEr(HOPE)を提案する。
本稿では,経路計画における行動マスク機構の計算と実装を行い,強化学習訓練の有効性と効果を著しく向上させる手法を提案する。
ネットワーク構造としてトランスフォーマーを用いて、環境情報を融合し、計画された経路を生成する。
提案したプランナの訓練と評価を容易にするため,空間および障害物分布に基づく駐車シナリオの難易度を分類する基準を提案する。
実験の結果,本手法は一般的なルールベースアルゴリズムや従来の強化学習手法よりも優れており,高い計画成功率と様々なシナリオにおける一般化が示されている。
私たちのソリューションのコードは、 \href{GitHub}{https://github.com/jiamiya/HOPE}で公開されます。
%であった。
関連論文リスト
- ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。
この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。
提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文 参考訳(メタデータ) (2024-09-12T08:26:33Z) - LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。
当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文 参考訳(メタデータ) (2023-12-30T02:53:45Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Integration of Reinforcement Learning Based Behavior Planning With
Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。
私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文 参考訳(メタデータ) (2023-04-17T13:49:55Z) - NeurIPS 2022 Competition: Driving SMARTS [60.948652154552136]
ドライビングSMARTSは、動的相互作用コンテキストにおける分散シフトに起因する問題に対処するために設計された定期的な競争である。
提案するコンペティションは,強化学習(RL)やオフライン学習など,方法論的に多様なソリューションをサポートする。
論文 参考訳(メタデータ) (2022-11-14T17:10:53Z) - Adaptive Decision Making at the Intersection for Autonomous Vehicles
Based on Skill Discovery [13.134487965031667]
都市環境では、複雑で不確実な交差点のシナリオは自動運転にとって困難である。
安全性を確保するためには、他の車両とのインタラクションを処理できる適応的な意思決定システムを開発することが不可欠である。
知識を自律的に蓄積し再利用できる階層的な枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-24T11:56:45Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Optimizing Trajectories for Highway Driving with Offline Reinforcement
Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。
我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。
ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文 参考訳(メタデータ) (2022-03-21T13:13:08Z) - Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic
Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。
シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。
その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文 参考訳(メタデータ) (2021-12-09T18:03:27Z) - Behavior Planning at Urban Intersections through Hierarchical
Reinforcement Learning [25.50973559614565]
本研究では,都市環境の階層構造を用いた自律走行計画を行うことができる強化学習(RL)に基づく行動計画構造を提案する。
我々のアルゴリズムは、車線封鎖やエゴ車前方の遅延による交差点に近づく際に、車線変更の可能な方向から左に曲がるタイミングや、車線変更の可能性など、規則に基づく決定方法よりも優れている。
また,提案手法は従来のRL法よりも高速に最適方針に収束することを示した。
論文 参考訳(メタデータ) (2020-11-09T19:23:26Z) - Efficient Exploration in Constrained Environments with Goal-Oriented
Reference Path [15.679210057474922]
環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。
これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。
提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
論文 参考訳(メタデータ) (2020-03-03T17:07:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。