論文の概要: Speeding Up Path Planning via Reinforcement Learning in MCTS for Automated Parking
- arxiv url: http://arxiv.org/abs/2403.17234v1
- Date: Mon, 25 Mar 2024 22:21:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 19:16:39.644691
- Title: Speeding Up Path Planning via Reinforcement Learning in MCTS for Automated Parking
- Title(参考訳): 自動駐車のためのMCTSにおける強化学習による経路計画の高速化
- Authors: Xinlong Zheng, Xiaozhou Zhang, Donghao Xu,
- Abstract要約: 本稿では,モンテカルロ木探索を用いた強化学習パイプラインを提案する。
状態の価値を反復的に学習することにより、与えられた状態に対する値推定器とポリシー生成器をモデル化することができる。
- 参考スコア(独自算出の注目度): 3.750010944080163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address a method that integrates reinforcement learning into the Monte Carlo tree search to boost online path planning under fully observable environments for automated parking tasks. Sampling-based planning methods under high-dimensional space can be computationally expensive and time-consuming. State evaluation methods are useful by leveraging the prior knowledge into the search steps, making the process faster in a real-time system. Given the fact that automated parking tasks are often executed under complex environments, a solid but lightweight heuristic guidance is challenging to compose in a traditional analytical way. To overcome this limitation, we propose a reinforcement learning pipeline with a Monte Carlo tree search under the path planning framework. By iteratively learning the value of a state and the best action among samples from its previous cycle's outcomes, we are able to model a value estimator and a policy generator for given states. By doing that, we build up a balancing mechanism between exploration and exploitation, speeding up the path planning process while maintaining its quality without using human expert driver data.
- Abstract(参考訳): 本稿では,モンテカルロ木探索に強化学習を統合し,自動駐車作業のための完全観測可能な環境下でのオンライン経路計画を強化する手法を提案する。
高次元空間下でのサンプリングベースの計画手法は、計算コストと時間を要する可能性がある。
状態評価手法は,事前の知識を検索ステップに活用することで,リアルタイムシステムにおけるプロセスの高速化に有効である。
自動駐車タスクは複雑な環境下で実行されることが多いことを考えると、従来の分析手法では、固体だが軽量なヒューリスティックな指導が難しい。
この制限を克服するために,モンテカルロ木探索を用いた強化学習パイプラインを提案する。
前回のサイクルの結果から、状態の価値と最良のアクションを反復的に学習することにより、与えられた状態に対する値推定器とポリシー生成器をモデル化することができる。
これにより、探索と搾取のバランスをとるメカニズムを構築し、人間の専門家のドライバーデータを用いることなく、その品質を維持しながら経路計画プロセスを高速化する。
関連論文リスト
- AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Integration of Reinforcement Learning Based Behavior Planning With
Sampling Based Motion Planning for Automated Driving [0.5801044612920815]
本研究では,高度行動計画のための訓練された深層強化学習ポリシーを用いる方法を提案する。
私たちの知る限りでは、この研究は、この方法で深層強化学習を適用した最初のものである。
論文 参考訳(メタデータ) (2023-04-17T13:49:55Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Spatiotemporal Costmap Inference for MPC via Deep Inverse Reinforcement
Learning [27.243603228431564]
目標条件付き時間報酬関数を学習するIRLRLアルゴリズムを提案する。
結果として生じるコストマップは、Model Predictive Controllers (MPC) によってタスクの実行に使用される。
論文 参考訳(メタデータ) (2022-01-17T17:36:29Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Adaptive Informative Path Planning Using Deep Reinforcement Learning for
UAV-based Active Sensing [2.6519061087638014]
深層強化学習(RL)に基づく情報経路計画のための新しい手法を提案する。
本手法は,モンテカルロ木探索とオフライン学習ニューラルネットワークを組み合わせた情報知覚行動の予測を行う。
ミッション中にトレーニングされたネットワークをデプロイすることにより、限られた計算資源を持つ物理プラットフォーム上で、サンプル効率の良いオンラインリプランニングが可能になる。
論文 参考訳(メタデータ) (2021-09-28T09:00:55Z) - PathBench: A Benchmarking Platform for Classical and Learned Path
Planning Algorithms [59.3879573040863]
パスプランニングは、モバイルロボティクスの重要なコンポーネントです。
アルゴリズムを全体的あるいは統一的にベンチマークする試みはほとんど行われていない。
本稿では,パスプランニングアルゴリズムの開発,視覚化,トレーニング,テスト,ベンチマークを行うプラットフォームであるPathBenchについて述べる。
論文 参考訳(メタデータ) (2021-05-04T21:48:18Z) - Real-world Ride-hailing Vehicle Repositioning using Deep Reinforcement
Learning [52.2663102239029]
アイドルヘイリングプラットフォーム上での現実世界の車両の深層強化学習と意思決定時間計画に基づく新しい実用的枠組みを提示する。
本手法は,重み付きバッチ学習アルゴリズムを用いて乗車時の状態値関数を学習する。
配車シミュレーション環境におけるベースラインでアルゴリズムをベンチマークし、収益効率の向上における優位性を実証します。
論文 参考訳(メタデータ) (2021-03-08T05:34:05Z) - Experience-Based Heuristic Search: Robust Motion Planning with Deep
Q-Learning [0.0]
本稿では,Deep Q-Networkの形式でのエクスペリエンスを,探索アルゴリズムの最適ポリシとして統合する方法について述べる。
本手法は、自動運転車分野における強化学習に基づく計画の適用性について、さらなる研究を奨励する可能性がある。
論文 参考訳(メタデータ) (2021-02-05T12:08:11Z) - A Self-Supervised Learning Approach to Rapid Path Planning for Car-Like
Vehicles Maneuvering in Urban Environment [3.867363075280544]
本稿では、勾配に基づく自己教師付き学習アルゴリズムを用いて、実現可能な経路を予測する、新しいニューラルネットワークによる経路計画手法を提案する。
このアプローチは過去に得られた経験を強く活用し、操舵角度が制限された車のような車両の実行可能な操縦計画を迅速に得る。
論文 参考訳(メタデータ) (2020-03-02T14:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。