論文の概要: Learning predictive representations in autonomous driving to improve
deep reinforcement learning
- arxiv url: http://arxiv.org/abs/2006.15110v1
- Date: Fri, 26 Jun 2020 17:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 22:16:41.737046
- Title: Learning predictive representations in autonomous driving to improve
deep reinforcement learning
- Title(参考訳): 深い強化学習を改善する自律運転における予測表現の学習
- Authors: Daniel Graves, Nhat M. Nguyen, Kimia Hassanzadeh, Jun Jin
- Abstract要約: 新たな予測表現を用いた強化学習を自律運転に適用する。
新たな予測表現は、一般値関数(GVF)によって学習され、将来の車線中心性と道路角度の予測を提供する。
シミュレーションと実世界の両方の実験では、強化学習における予測表現が学習効率、制御の滑らかさ、およびエージェントが訓練中に表示されなかった道路への一般化を改善することが示されている。
- 参考スコア(独自算出の注目度): 9.919972770800822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning using a novel predictive representation is applied to
autonomous driving to accomplish the task of driving between lane markings
where substantial benefits in performance and generalization are observed on
unseen test roads in both simulation and on a real Jackal robot. The novel
predictive representation is learned by general value functions (GVFs) to
provide out-of-policy, or counter-factual, predictions of future lane
centeredness and road angle that form a compact representation of the state of
the agent improving learning in both online and offline reinforcement learning
to learn to drive an autonomous vehicle with methods that generalizes well to
roads not in the training data. Experiments in both simulation and the
real-world demonstrate that predictive representations in reinforcement
learning improve learning efficiency, smoothness of control and generalization
to roads that the agent was never shown during training, including damaged lane
markings. It was found that learning a predictive representation that consists
of several predictions over different time scales, or discount factors,
improves the performance and smoothness of the control substantially. The
Jackal robot was trained in a two step process where the predictive
representation is learned first followed by a batch reinforcement learning
algorithm (BCQ) from data collected through both automated and human-guided
exploration in the environment. We conclude that out-of-policy predictive
representations with GVFs offer reinforcement learning many benefits in
real-world problems.
- Abstract(参考訳): 新たな予測表現を用いた強化学習を自律運転に適用し、実ジャカルロボットとシミュレーションの両方において、未確認のテスト道路において、性能と一般化のかなりの恩恵が観測される車線標識間の運転を実現する。
この新たな予測表現は、一般値関数(GVF)によって学習され、オンラインおよびオフラインの強化学習において学習を改善するエージェントの状態のコンパクトな表現を形成し、トレーニングデータにない道路に一般化する手法で自動運転車を駆動することを学ぶ、将来の車線中心性および道路角度の予測を提供する。
シミュレーションと実世界の実験の両方において、強化学習における予測表現が学習効率、制御の滑らかさ、および訓練中にエージェントが現れなかった道路への一般化を改善できることが示されている。
その結果,異なる時間スケールでの予測や割引係数を含む予測表現を学習することで,制御の性能と滑らかさを大幅に向上させることがわかった。
ジャッカルロボットは2段階のプロセスで訓練され、まず予測表現を学習し、その後、自動探索と人間誘導探索の両方で収集されたデータからバッチ強化学習アルゴリズム(bcq)を学習した。
我々は,GVFを用いた政治外の予測表現は実世界の問題に多くのメリットをもたらすと結論付けた。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - RAG-based Explainable Prediction of Road Users Behaviors for Automated Driving using Knowledge Graphs and Large Language Models [8.253092044813595]
本稿では,知識グラフと大規模言語モデルの推論能力を統合した,道路利用者の行動予測システムを提案する。
1)歩行者の横断行動の予測,2)車線変更操作の予測。
論文 参考訳(メタデータ) (2024-05-01T11:06:31Z) - Adversary ML Resilience in Autonomous Driving Through Human Centered
Perception Mechanisms [0.0]
本稿では,3つの物理的攻撃(テープ,落書き,照明)に対する自律走行システムのレジリエンスについて検討する。
攻撃に対する堅牢性を構築するために、敵の訓練や移動学習のような防御技術が導入された。
その結果,道路標識分類の一般化性を向上させるために,形状訓練から得られる知識を付与することにより,伝達学習モデルが性能において重要な役割を担っていることが示された。
論文 参考訳(メタデータ) (2023-11-02T04:11:45Z) - Self-Aware Trajectory Prediction for Safe Autonomous Driving [9.868681330733764]
軌道予測は、自動運転ソフトウェアスタックの重要なコンポーネントの1つである。
本稿では,自己認識軌道予測手法を提案する。
提案手法は, 自己認識, メモリフットプリント, リアルタイム性能で良好に動作した。
論文 参考訳(メタデータ) (2023-05-16T03:53:23Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - AdvDO: Realistic Adversarial Attacks for Trajectory Prediction [87.96767885419423]
軌道予測は、自動運転車が正しく安全な運転行動を計画するために不可欠である。
我々は,現実的な対向軌道を生成するために,最適化に基づく対向攻撃フレームワークを考案する。
私たちの攻撃は、AVが道路を走り去るか、シミュレーション中に他の車両に衝突する可能性がある。
論文 参考訳(メタデータ) (2022-09-19T03:34:59Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Generative Adversarial Imitation Learning for End-to-End Autonomous
Driving on Urban Environments [0.8122270502556374]
GAIL(Generative Adversarial Imitation Learning)は、報酬関数を明示的に定義することなくポリシーを訓練することができる。
両モデルとも,訓練終了後に開始から終了まで,専門家の軌道を模倣できることを示す。
論文 参考訳(メタデータ) (2021-10-16T15:04:13Z) - Improving Robustness of Learning-based Autonomous Steering Using
Adversarial Images [58.287120077778205]
自動運転用画像入力における学習アルゴリズムw.r.tの堅牢性を解析するためのフレームワークについて紹介する。
感度分析の結果を用いて, 「操縦への学習」 タスクの総合的性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-26T02:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。