論文の概要: Imagination-augmented Hierarchical Reinforcement Learning for Safe and
Interactive Autonomous Driving in Urban Environments
- arxiv url: http://arxiv.org/abs/2311.10309v1
- Date: Fri, 17 Nov 2023 03:41:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 15:03:27.877740
- Title: Imagination-augmented Hierarchical Reinforcement Learning for Safe and
Interactive Autonomous Driving in Urban Environments
- Title(参考訳): 都市環境における安全かつインタラクティブな自動運転のための想像力提示階層強化学習
- Authors: Sang-Hyun Lee, Yoonjae Jung, Seung-Woo Seo
- Abstract要約: 本稿では,現実のナビゲーションタスクにおいて,エージェントが安全かつインタラクティブな振る舞いを学習できる新しい汎用ナビゲーションアルゴリズムである,想像力強化HRL(IAHRL)を提案する。
私たちのキーとなる考え方は、高レベルのポリシーが低レベルのポリシーで想像される振る舞いを解釈することによって相互作用を推論する階層的なエージェントを訓練することです。
- 参考スコア(独自算出の注目度): 21.30432408940134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning (HRL) has led to remarkable achievements
in diverse fields. However, existing HRL algorithms still cannot be applied to
real-world navigation tasks. These tasks require an agent to perform
safety-aware behaviors and interact with surrounding objects in dynamic
environments. In addition, an agent in these tasks should perform consistent
and structured exploration as they are long-horizon and have complex structures
with diverse objects and task-specific rules. Designing HRL agents that can
handle these challenges in real-world navigation tasks is an open problem. In
this paper, we propose imagination-augmented HRL (IAHRL), a new and general
navigation algorithm that allows an agent to learn safe and interactive
behaviors in real-world navigation tasks. Our key idea is to train a
hierarchical agent in which a high-level policy infers interactions by
interpreting behaviors imagined with low-level policies. Specifically, the
high-level policy is designed with a permutation-invariant attention mechanism
to determine which low-level policy generates the most interactive behavior,
and the low-level policies are implemented with an optimization-based behavior
planner to generate safe and structured behaviors following task-specific
rules. To evaluate our algorithm, we introduce five complex urban driving
tasks, which are among the most challenging real-world navigation tasks. The
experimental results indicate that our hierarchical agent performs safety-aware
behaviors and properly interacts with surrounding vehicles, achieving higher
success rates and lower average episode steps than baselines in urban driving
tasks.
- Abstract(参考訳): 階層的強化学習(HRL)は様々な分野で顕著な成果をもたらした。
しかし、既存のHRLアルゴリズムは現実世界のナビゲーションタスクには適用できない。
これらのタスクは、エージェントが安全認識動作を実行し、動的環境で周囲のオブジェクトと対話する必要がある。
さらに、これらのタスクのエージェントは、長いホリゾンであり、さまざまなオブジェクトとタスク固有のルールを持つ複雑な構造を持つため、一貫性のある構造化された探索を行う必要がある。
これらの課題を現実のナビゲーションタスクで処理できるHRLエージェントを設計することは、オープンな問題である。
本稿では,エージェントが現実世界のナビゲーションタスクで安全かつインタラクティブな動作を学習できる,新しい汎用的なナビゲーションアルゴリズムであるimagination-augmented hrl (iahrl)を提案する。
私たちのキーとなる考え方は、高レベルのポリシーが低レベルのポリシーで想像される振る舞いを解釈することによって相互作用を推論する階層的なエージェントを訓練することです。
特に、ハイレベルポリシーは、どの低レベルポリシーが最もインタラクティブな振る舞いを生成するかを決定するための置換不変注意機構で設計され、低レベルポリシーは、タスク固有のルールに従って安全で構造化された振る舞いを生成する最適化ベースの行動プランナーによって実装される。
提案アルゴリズムを評価するために,都市部における複雑な運転タスクを5つ導入した。
実験の結果, 階層エージェントは安全認識行動を実行し, 周囲の車両と適切に相互作用し, 都市走行タスクのベースラインよりも高い成功率と低い平均エピソードステップを達成することが示唆された。
関連論文リスト
- Meta-Learning Integration in Hierarchical Reinforcement Learning for Advanced Task Complexity [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで、複雑なタスクに効果的に取り組む。
我々は、メタラーニングをHRLに統合し、エージェントの学習能力を高め、階層的な政策を迅速に適応させる。
論文 参考訳(メタデータ) (2024-10-10T13:47:37Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - General policy mapping: online continual reinforcement learning inspired
on the insect brain [3.8937756915387505]
我々は,昆虫の脳に触発されたオンライン連続的・生涯強化学習モデルを開発した。
提案モデルは,オンライン環境におけるRLアルゴリズムの収束を可能にするために,特徴抽出と共通ポリシーレイヤのオフライントレーニングを利用する。
論文 参考訳(メタデータ) (2022-11-30T05:54:19Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。