論文の概要: Spatially and Seamlessly Hierarchical Reinforcement Learning for State
Space and Policy space in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2111.05479v1
- Date: Wed, 10 Nov 2021 01:35:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 14:05:09.376719
- Title: Spatially and Seamlessly Hierarchical Reinforcement Learning for State
Space and Policy space in Autonomous Driving
- Title(参考訳): 自動運転における状態空間と政策空間のための空間的かつシームレスな階層的強化学習
- Authors: Jaehyun Kim and Jaeseung Jeong
- Abstract要約: 状態空間と政策空間の空間的階層的強化学習法を提案する。
提案手法は, 基本的階層的強化学習法よりも優れ, 初期エピソードからほぼ最適なポリシーを導出する。
道路上の軌道は、行動計画レベルでの人間の戦略と類似していた。
- 参考スコア(独自算出の注目度): 0.9899017174990579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite advances in hierarchical reinforcement learning, its applications to
path planning in autonomous driving on highways are challenging. One reason is
that conventional hierarchical reinforcement learning approaches are not
amenable to autonomous driving due to its riskiness: the agent must move
avoiding multiple obstacles such as other agents that are highly unpredictable,
thus safe regions are small, scattered, and changeable over time. To overcome
this challenge, we propose a spatially hierarchical reinforcement learning
method for state space and policy space. The high-level policy selects not only
behavioral sub-policy but also regions to pay mind to in state space and for
outline in policy space. Subsequently, the low-level policy elaborates the
short-term goal position of the agent within the outline of the region selected
by the high-level command. The network structure and optimization suggested in
our method are as concise as those of single-level methods. Experiments on the
environment with various shapes of roads showed that our method finds the
nearly optimal policies from early episodes, outperforming a baseline
hierarchical reinforcement learning method, especially in narrow and complex
roads. The resulting trajectories on the roads were similar to those of human
strategies on the behavioral planning level.
- Abstract(参考訳): 階層的強化学習の進歩にもかかわらず、高速道路での自動運転における経路計画への応用は困難である。
一つの理由は、従来の階層的強化学習アプローチは、そのリスクのために自律運転には適さないため、エージェントは予測不能な他のエージェントのような複数の障害を避ける必要があるため、安全領域は小さく、散在し、時間とともに変化しなければなりません。
この課題を克服するために,本稿では,状態空間と政策空間に対する空間階層的強化学習手法を提案する。
ハイレベル政策は、行動サブポリシーだけでなく、州の空間や政策空間の概要に心を配る地域も選択する。
その後、低レベルポリシーは、高レベルコマンドによって選択された領域の概要内でエージェントの短期的目標位置を詳述する。
提案手法で提案するネットワーク構造と最適化は, 単レベル手法と同じくらい簡潔である。
道路形状の異なる環境実験により,本手法は初期のエピソードからほぼ最適の方針を見いだし,特に狭く複雑な道路において,階層的強化学習手法のベースラインを上回った。
その結果、道路上の軌道は行動計画レベルでの人間の戦略と類似していた。
関連論文リスト
- A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning [54.20447310988282]
異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
論文 参考訳(メタデータ) (2024-06-21T13:17:33Z) - RACER: Epistemic Risk-Sensitive RL Enables Fast Driving with Fewer Crashes [57.319845580050924]
本稿では,リスク感応制御と適応行動空間のカリキュラムを組み合わせた強化学習フレームワークを提案する。
提案アルゴリズムは,現実世界のオフロード運転タスクに対して,高速なポリシーを学習可能であることを示す。
論文 参考訳(メタデータ) (2024-05-07T23:32:36Z) - Towards Optimal Head-to-head Autonomous Racing with Curriculum
Reinforcement Learning [22.69532642800264]
車両力学を正確にモデル化した強化学習のためのヘッド・ツー・ヘッドレース環境を提案する。
また,エージェントの安全性を高めるために,制御バリア関数に基づく安全強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:05:41Z) - Robust Driving Policy Learning with Guided Meta Reinforcement Learning [49.860391298275616]
本稿では,ソーシャルカーの多種多様な運転方針を一つのメタ政治として訓練する効率的な方法を提案する。
ソーシャルカーのインタラクションに基づく報酬関数をランダム化することにより、多様な目的を生み出し、メタ政治を効率的に訓練することができる。
本研究では,社会自動車が学習メタ政治によって制御される環境を利用して,エゴ自動車の運転方針の堅牢性を高めるためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-07-19T17:42:36Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Affordance-based Reinforcement Learning for Urban Driving [3.507764811554557]
経路点と低次元視覚表現を用いた最適制御ポリシーを学習するための深層強化学習フレームワークを提案する。
スクラッチから訓練されたエージェントは、車線追従のタスクを学習し、区間間を走り回り、密集した交通状況でも他のアクターや信号機の前で立ち止まることを実証する。
論文 参考訳(メタデータ) (2021-01-15T05:21:25Z) - Behavior Planning at Urban Intersections through Hierarchical
Reinforcement Learning [25.50973559614565]
本研究では,都市環境の階層構造を用いた自律走行計画を行うことができる強化学習(RL)に基づく行動計画構造を提案する。
我々のアルゴリズムは、車線封鎖やエゴ車前方の遅延による交差点に近づく際に、車線変更の可能な方向から左に曲がるタイミングや、車線変更の可能性など、規則に基づく決定方法よりも優れている。
また,提案手法は従来のRL法よりも高速に最適方針に収束することを示した。
論文 参考訳(メタデータ) (2020-11-09T19:23:26Z) - Behavioral decision-making for urban autonomous driving in the presence
of pedestrians using Deep Recurrent Q-Network [0.0]
都市環境における自動運転の意思決定は,道路構造の複雑化と多様な道路利用者の行動の不確実性により困難である。
本研究では,歩行者の存在下での都市環境における高レベル運転行動に対する深層強化学習に基づく意思決定手法を提案する。
提案手法は都市密集シナリオに対して評価し,ルールベース手法と比較し,DRQNに基づく運転行動決定器がルールベース手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-26T08:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。