Fugu-MT 論文翻訳(概要): HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

論文の概要: HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios

arxiv url: http://arxiv.org/abs/2405.20579v2
Date: Fri, 5 Jul 2024 02:11:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 22:54:33.701004
Title: HOPE: A Reinforcement Learning-based Hybrid Policy Path Planner for Diverse Parking Scenarios
Title（参考訳）: HOPE: 多様なパーキングシナリオのための強化学習型ハイブリッドポリシーパスプランナ
Authors: Mingyang Jiang, Yueyuan Li, Songan Zhang, Siyuan Chen, Chunxiang Wang, Ming Yang,
Abstract要約: 多様な複雑な駐車シナリオを扱うために,Hybrid pOlicy Path PlannEr(HOPE)を導入する。 HOPEは強化学習エージェントをReeds-Shepp曲線に統合し、多様なシナリオにまたがる効果的な計画を可能にする。本稿では,空間および障害物分布に基づく駐車シナリオの難易度を分類するための基準を提案する。
参考スコア（独自算出の注目度）: 24.25807334214834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated parking stands as a highly anticipated application of autonomous driving technology. However, existing path planning methodologies fall short of addressing this need due to their incapability to handle the diverse and complex parking scenarios in reality. While non-learning methods provide reliable planning results, they are vulnerable to intricate occasions, whereas learning-based ones are good at exploration but unstable in converging to feasible solutions. To leverage the strengths of both approaches, we introduce Hybrid pOlicy Path plannEr (HOPE). This novel solution integrates a reinforcement learning agent with Reeds-Shepp curves, enabling effective planning across diverse scenarios. HOPE guides the exploration of the reinforcement learning agent by applying an action mask mechanism and employs a transformer to integrate the perceived environmental information with the mask. To facilitate the training and evaluation of the proposed planner, we propose a criterion for categorizing the difficulty level of parking scenarios based on space and obstacle distribution. Experimental results demonstrate that our approach outperforms typical rule-based algorithms and traditional reinforcement learning methods, showing higher planning success rates and generalization across various scenarios. We also conduct real-world experiments to verify the practicability of HOPE. The code for our solution will be openly available on \href{GitHub}{https://github.com/jiamiya/HOPE}.
Abstract（参考訳）: 自動駐車は自動運転技術の高度な応用として期待されている。しかし、既存の経路計画手法は、現実の多様な複雑な駐車シナリオを扱うことができないため、このニーズに対処できない。非学習手法は信頼性の高い計画結果を提供するが、複雑な機会に弱い一方で、学習ベースの手法は探索に長けているが、実現可能な解に収束するには不安定である。両アプローチの長所を活用するために,Hybrid pOlicy Path PlannEr(HOPE)を導入する。この新しいソリューションは強化学習エージェントをReeds-Shepp曲線に統合し、多様なシナリオにまたがる効果的な計画を可能にする。 HOPEは、アクションマスク機構を適用して強化学習剤の探索を誘導し、認識された環境情報をマスクと統合するトランスフォーマーを用いる。提案したプランナの訓練と評価を容易にするため,空間および障害物分布に基づく駐車シナリオの難易度を分類する基準を提案する。実験の結果,本手法は一般的なルールベースアルゴリズムや従来の強化学習手法よりも優れており,計画の成功率や様々なシナリオにおける一般化が期待できることがわかった。また,実世界の実験を行い,HOPEの実践性を検証する。私たちのソリューションのコードは、 \href{GitHub}{https://github.com/jiamiya/HOPE}で公開されます。

関連論文リスト

ReGentS: Real-World Safety-Critical Driving Scenario Generation Made Stable [88.08120417169971]
機械学習に基づく自律運転システムは、現実世界のデータでは稀な安全クリティカルなシナリオで課題に直面していることが多い。この研究は、軌道最適化によって複雑な現実世界の通常のシナリオを変更することによって、安全クリティカルな運転シナリオを生成することを検討する。提案手法は、頑健なプランナーの訓練には役に立たない非現実的な発散軌道と避けられない衝突シナリオに対処する。
論文参考訳（メタデータ） (2024-09-12T08:26:33Z)
LLM-Assist: Enhancing Closed-Loop Planning with Language-Based Reasoning [65.86754998249224]
従来のルールベースプランナとLCMベースのプランナを併用した,新しいハイブリッドプランナを開発した。当社のアプローチでは,既存のプランナが苦労する複雑なシナリオをナビゲートし,合理的なアウトプットを生成すると同時に,ルールベースのアプローチと連携して作業する。
論文参考訳（メタデータ） (2023-12-30T02:53:45Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
Integration of Reinforcement Learning Based Behavior Planning With Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文参考訳（メタデータ） (2023-04-17T13:49:55Z)
NeurIPS 2022 Competition: Driving SMARTS [60.948652154552136]
ドライビングSMARTSは、動的相互作用コンテキストにおける分散シフトに起因する問題に対処するために設計された定期的な競争である。提案するコンペティションは,強化学習(RL)やオフライン学習など,方法論的に多様なソリューションをサポートする。
論文参考訳（メタデータ） (2022-11-14T17:10:53Z)
Adaptive Decision Making at the Intersection for Autonomous Vehicles Based on Skill Discovery [13.134487965031667]
都市環境では、複雑で不確実な交差点のシナリオは自動運転にとって困難である。安全性を確保するためには、他の車両とのインタラクションを処理できる適応的な意思決定システムを開発することが不可欠である。知識を自律的に蓄積し再利用できる階層的な枠組みを提案する。
論文参考訳（メタデータ） (2022-07-24T11:56:45Z)
Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文参考訳（メタデータ） (2022-05-17T06:58:17Z)
Optimizing Trajectories for Highway Driving with Offline Reinforcement Learning [11.970409518725491]
自律運転に対する強化学習に基づくアプローチを提案する。我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。ランダムに収集されたデータを持つオフライントレーニングエージェントが、望ましい速度に可能な限り近い速度で、他のエージェントよりも優れた速度で、スムーズに駆動することを学ぶことを実証します。
論文参考訳（メタデータ） (2022-03-21T13:13:08Z)
Generating Useful Accident-Prone Driving Scenarios via a Learned Traffic Prior [135.78858513845233]
STRIVEは、特定のプランナーが衝突のような望ましくない振る舞いを発生させるような、困難なシナリオを自動的に生成する手法である。シナリオの妥当性を維持するために、キーとなるアイデアは、グラフベースの条件付きVAEという形で、学習した交通運動モデルを活用することである。その後の最適化は、シナリオの"解決"を見つけるために使用され、与えられたプランナーを改善するのに有効である。
論文参考訳（メタデータ） (2021-12-09T18:03:27Z)
Deep Structured Reactive Planning [94.92994828905984]
自動運転のための新しいデータ駆動型リアクティブ計画目標を提案する。本モデルは,非常に複雑な操作を成功させる上で,非反応性変種よりも優れることを示す。
論文参考訳（メタデータ） (2021-01-18T01:43:36Z)
Behavior Planning at Urban Intersections through Hierarchical Reinforcement Learning [25.50973559614565]
本研究では,都市環境の階層構造を用いた自律走行計画を行うことができる強化学習(RL)に基づく行動計画構造を提案する。我々のアルゴリズムは、車線封鎖やエゴ車前方の遅延による交差点に近づく際に、車線変更の可能な方向から左に曲がるタイミングや、車線変更の可能性など、規則に基づく決定方法よりも優れている。また,提案手法は従来のRL法よりも高速に最適方針に収束することを示した。
論文参考訳（メタデータ） (2020-11-09T19:23:26Z)
Efficient Exploration in Constrained Environments with Goal-Oriented Reference Path [15.679210057474922]
環境マップに基づいて衝突のない経路を予測できる深層畳み込みネットワークを訓練する。これは強化学習アルゴリズムによって、経路を忠実に追従することを学ぶために使われる。提案手法は,新しい環境へのサンプル効率と一般化能力を継続的に改善することを示す。
論文参考訳（メタデータ） (2020-03-03T17:07:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。