論文の概要: Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills
- arxiv url: http://arxiv.org/abs/2309.13614v2
- Date: Fri, 17 Nov 2023 05:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-22 17:57:35.084794
- Title: Boosting Offline Reinforcement Learning for Autonomous Driving with
Hierarchical Latent Skills
- Title(参考訳): 階層的潜在能力を有する自律走行のためのオフライン強化学習の強化
- Authors: Zenan Li, Fan Nie, Qiao Sun, Fang Da, Hang Zhao
- Abstract要約: 本稿では、長距離車両計画の課題を克服するために、オフラインRLを強化するスキルベースのフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
一般的なVAEの後方崩壊を緩和するため、2分岐シーケンスエンコーダを導入し、離散的なオプションと複雑な駆動スキルの連続的な変化をキャプチャする。
- 参考スコア(独自算出の注目度): 37.31853034449015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning-based vehicle planning is receiving increasing attention with the
emergence of diverse driving simulators and large-scale driving datasets. While
offline reinforcement learning (RL) is well suited for these safety-critical
tasks, it still struggles to plan over extended periods. In this work, we
present a skill-based framework that enhances offline RL to overcome the
long-horizon vehicle planning challenge. Specifically, we design a variational
autoencoder (VAE) to learn skills from offline demonstrations. To mitigate
posterior collapse of common VAEs, we introduce a two-branch sequence encoder
to capture both discrete options and continuous variations of the complex
driving skills. The final policy treats learned skills as actions and can be
trained by any off-the-shelf offline RL algorithms. This facilitates a shift in
focus from per-step actions to temporally extended skills, thereby enabling
long-term reasoning into the future. Extensive results on CARLA prove that our
model consistently outperforms strong baselines at both training and new
scenarios. Additional visualizations and experiments demonstrate the
interpretability and transferability of extracted skills.
- Abstract(参考訳): 多様な運転シミュレータや大規模運転データセットが出現し、学習に基づく車両計画が注目を集めている。
オフライン強化学習(RL)はこれらの安全クリティカルなタスクに適しているが、それでも長期にわたる計画に苦慮している。
本研究では,長距離車両計画の課題を克服するために,オフラインRLを向上するスキルベースフレームワークを提案する。
具体的には、オフラインデモからスキルを学ぶための変分オートエンコーダ(VAE)を設計する。
共通のvaesの後方崩壊を緩和するために, 離散的なオプションと複雑な運転スキルの連続的な変動を捉えるために, 2分岐シーケンスエンコーダを導入する。
最終方針は、学習したスキルをアクションとして扱い、市販のオフラインRLアルゴリズムでトレーニングすることができる。
これにより、ステップ毎のアクションからテンポラリな拡張スキルへのフォーカスのシフトが容易になり、長期的な推論を未来に導くことができる。
CARLAの大規模な結果は、トレーニングと新しいシナリオの両方において、我々のモデルは一貫して強力なベースラインを上回ります。
さらなる可視化と実験は、抽出されたスキルの解釈可能性と伝達可能性を示している。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Action and Trajectory Planning for Urban Autonomous Driving with
Hierarchical Reinforcement Learning [1.3397650653650457]
本稿では,階層型強化学習法(atHRL)を用いた行動・軌道プランナを提案する。
我々は、複雑な都市運転シナリオにおける広範な実験を通して、atHRLの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2023-06-28T07:11:02Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments [0.8122270502556374]
GAIL(Generative Adversarial Imitation Learning)は、報酬関数を明示的に定義することなくポリシーを訓練することができる。
両モデルとも,訓練終了後に開始から終了まで,専門家の軌道を模倣できることを示す。
論文 参考訳(メタデータ) (2021-10-16T15:04:13Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for
Reinforcement Learning [84.30765628008207]
本稿では,RL特徴表現学習におけるデータ効率を向上させるために,サイクル一貫性のある仮想トラジェクトリを付加するPlayVirtualという新しい手法を提案する。
本手法は,両ベンチマークにおいて,最先端の手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2021-06-08T07:37:37Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。