論文の概要: Imagination-Augmented Hierarchical Reinforcement Learning for Safe and
Interactive Autonomous Driving in Urban Environments
- arxiv url: http://arxiv.org/abs/2311.10309v2
- Date: Tue, 23 Jan 2024 06:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 18:55:49.780485
- Title: Imagination-Augmented Hierarchical Reinforcement Learning for Safe and
Interactive Autonomous Driving in Urban Environments
- Title(参考訳): 都市環境における安全かつインタラクティブな自動運転のための想像力提示階層強化学習
- Authors: Sang-Hyun Lee, Yoonjae Jung, Seung-Woo Seo
- Abstract要約: 階層的強化学習(HRL)は時間的抽象化を強化学習(RL)に組み込む
本稿では, 効率よく想像力を統合できる HRL (Imagimation-augmented HRL) を提案する。
IAHRLは、エージェントが安全で対話的な行動を実行し、成功率を高め、ベースラインよりも平均エピソードステップを低くすることができる。
- 参考スコア(独自算出の注目度): 21.30432408940134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning (HRL) incorporates temporal abstraction
into reinforcement learning (RL) by explicitly taking advantage of hierarchical
structure. Modern HRL typically designs a hierarchical agent composed of a
high-level policy and low-level policies. The high-level policy selects which
low-level policy to activate at a lower frequency and the activated low-level
policy selects an action at each time step. Recent HRL algorithms have achieved
performance gains over standard RL algorithms in synthetic navigation tasks.
However, we cannot apply these HRL algorithms to real-world navigation tasks.
One of the main challenges is that real-world navigation tasks require an agent
to perform safe and interactive behaviors in dynamic environments. In this
paper, we propose imagination-augmented HRL (IAHRL) that efficiently integrates
imagination into HRL to enable an agent to learn safe and interactive behaviors
in real-world navigation tasks. Imagination is to predict the consequences of
actions without interactions with actual environments. The key idea behind
IAHRL is that the low-level policies imagine safe and structured behaviors, and
then the high-level policy infers interactions with surrounding objects by
interpreting the imagined behaviors. We also introduce a new attention
mechanism that allows our high-level policy to be permutation-invariant to the
order of surrounding objects and to prioritize our agent over them. To evaluate
IAHRL, we introduce five complex urban driving tasks, which are among the most
challenging real-world navigation tasks. The experimental results indicate that
IAHRL enables an agent to perform safe and interactive behaviors, achieving
higher success rates and lower average episode steps than baselines.
- Abstract(参考訳): 階層的強化学習(HRL)は、階層構造を明示的に活用することにより、時間的抽象化を強化学習(RL)に組み込む。
現代のHRLは通常、高レベルのポリシーと低レベルのポリシーからなる階層的なエージェントを設計する。
高レベルポリシーは、どの低レベルポリシーを低周波数で起動するかを選択し、活性化された低レベルポリシーは各タイムステップでアクションを選択する。
最近のHRLアルゴリズムは、合成ナビゲーションタスクにおける標準RLアルゴリズムよりも性能が向上している。
しかし、現実世界のナビゲーションタスクにこれらのHRLアルゴリズムを適用することはできない。
主な課題の1つは、現実世界のナビゲーションタスクは、エージェントが動的環境で安全かつインタラクティブな振る舞いを実行する必要があることである。
本稿では,現実のナビゲーションタスクにおいて,エージェントが安全かつインタラクティブな振る舞いを学習できるようにするために,AIHRL(imimation-augmented HRL)を提案する。
イマジネーションとは、実際の環境との相互作用なしに行動の結果を予測することである。
IAHRLの背景にある重要な考え方は、低レベルのポリシーは安全で構造的な振る舞いを想像し、高レベルのポリシーは、想像された振る舞いを解釈することによって周囲のオブジェクトとの相互作用を推論する。
また,我々のハイレベルポリシーを周囲のオブジェクトの順序に置換不変にし,エージェントを優先する新たな注意機構を導入する。
IAHRLを評価するために,都市部における複雑な運転タスクを5つ導入した。
実験の結果,IAHRLはエージェントが安全かつ対話的な行動を実行でき,成功率が高く,平均エピソードステップがベースラインよりも低いことが示唆された。
関連論文リスト
- Meta-Learning Integration in Hierarchical Reinforcement Learning for Advanced Task Complexity [0.0]
階層強化学習(HRL)は、それらを構造化されたポリシーに分解することで、複雑なタスクに効果的に取り組む。
我々は、メタラーニングをHRLに統合し、エージェントの学習能力を高め、階層的な政策を迅速に適応させる。
論文 参考訳(メタデータ) (2024-10-10T13:47:37Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - SHIRO: Soft Hierarchical Reinforcement Learning [0.0]
効率的な探索のためにエントロピーを最大化するオフポリシーHRLアルゴリズムを提案する。
このアルゴリズムは、時間的に抽象化された低レベルポリシーを学習し、高レベルへのエントロピーの追加を通じて広範囲に探索することができる。
提案手法は, ロボット制御ベンチマークタスクのシミュレーションにおいて, 最先端性能を上回っている。
論文 参考訳(メタデータ) (2022-12-24T17:21:58Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - General policy mapping: online continual reinforcement learning inspired
on the insect brain [3.8937756915387505]
我々は,昆虫の脳に触発されたオンライン連続的・生涯強化学習モデルを開発した。
提案モデルは,オンライン環境におけるRLアルゴリズムの収束を可能にするために,特徴抽出と共通ポリシーレイヤのオフライントレーニングを利用する。
論文 参考訳(メタデータ) (2022-11-30T05:54:19Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Room Clearance with Feudal Hierarchical Reinforcement Learning [2.867517731896504]
本稿では,RL研究を軍事分析に有用な方向に進めるためのシナリオ構築ツールとして,新しいシミュレーション環境「it」を紹介した。
そこでは、青いエージェントのチームが建物を通り抜け、すべての部屋が敵のレッドエージェントから取り除かれるようにしなければなりません。
封建的階層型RLのマルチエージェント版を実装し、より上位の指揮官が命令を下級の複数のエージェントに送信するコマンド階層を導入する。
このような方法でタスクを壊すことで、私たちはそれを可能にすることに気付きました。
論文 参考訳(メタデータ) (2021-05-24T15:05:58Z) - A Survey of Reinforcement Learning Algorithms for Dynamically Varying
Environments [1.713291434132985]
強化学習(Reinforcement Learning, RL)アルゴリズムは、在庫管理、レコメンデータシステム、車両交通管理、クラウドコンピューティング、ロボット工学などの分野で応用されている。
これらの領域で生じる多くのタスクの現実的な合併症は、古典的RLアルゴリズムの基礎となる基本的な仮定で解くのを難しくする。
本稿では、動的に変化する環境モデルを扱うために開発されたRL法について調査する。
これらのアルゴリズムの代表的コレクションは、それらの分類と相対的なメリットとデメリットと共に、この研究で詳細に議論されている。
論文 参考訳(メタデータ) (2020-05-19T09:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。