論文の概要: Autonomous Algorithm for Training Autonomous Vehicles with Minimal Human Intervention
- arxiv url: http://arxiv.org/abs/2405.13345v1
- Date: Wed, 22 May 2024 05:04:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 01:24:25.594975
- Title: Autonomous Algorithm for Training Autonomous Vehicles with Minimal Human Intervention
- Title(参考訳): 最小限の人間介入による自律走行車両の訓練アルゴリズム
- Authors: Sang-Hyun Lee, Daehyeok Kwon, Seung-Woo Seo,
- Abstract要約: 人間の介入を最小限に抑えて自動運転車を訓練するための新しいアルゴリズムを導入する。
我々のアルゴリズムは、いつエピソードを中止すべきかを決定するために、自動運転車の学習の進捗を考慮に入れている。
また、ルールベースの自動運転アルゴリズムを利用して、自動運転車を初期状態に安全にリセットする。
- 参考スコア(独自算出の注目度): 18.95571506577409
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) provides a compelling framework for enabling autonomous vehicles to continue to learn and improve diverse driving behaviors on their own. However, training real-world autonomous vehicles with current RL algorithms presents several challenges. One critical challenge, often overlooked in these algorithms, is the need to reset a driving environment between every episode. While resetting an environment after each episode is trivial in simulated settings, it demands significant human intervention in the real world. In this paper, we introduce a novel autonomous algorithm that allows off-the-shelf RL algorithms to train an autonomous vehicle with minimal human intervention. Our algorithm takes into account the learning progress of the autonomous vehicle to determine when to abort episodes before it enters unsafe states and where to reset it for subsequent episodes in order to gather informative transitions. The learning progress is estimated based on the novelty of both current and future states. We also take advantage of rule-based autonomous driving algorithms to safely reset an autonomous vehicle to an initial state. We evaluate our algorithm against baselines on diverse urban driving tasks. The experimental results show that our algorithm is task-agnostic and achieves better driving performance with fewer manual resets than baselines.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、自動運転車が自身の運転行動の学習と改善を続けることを可能にする、魅力的なフレームワークを提供する。
しかし、現在のRLアルゴリズムによる現実の自動運転車のトレーニングにはいくつかの課題がある。
重要な課題は、しばしばこれらのアルゴリズムで見落とされ、各エピソード間で運転環境をリセットする必要があることである。
各エピソードの後に環境をリセットすることは、シミュレーションされた設定では簡単なことだが、現実の世界では人間の介入がかなり必要である。
本稿では,人間による介入を最小限に抑えた自動運転車の訓練を可能にする,新しい自律アルゴリズムを提案する。
我々のアルゴリズムは、安全でない状態に入る前にいつエピソードを中止するかを判断し、後続のエピソードにリセットし、情報的遷移を収集するために、自動運転車の学習の進捗を考慮に入れている。
学習の進展は、現在の状態と将来の状態の両方の新規性に基づいて推定される。
また、ルールベースの自動運転アルゴリズムを利用して、自動運転車を初期状態に安全にリセットする。
多様な都市運転タスクのベースラインに対するアルゴリズムの評価を行った。
実験結果から,本アルゴリズムはタスク非依存であり,ベースラインよりも手動リセットが少なく,運転性能が向上することが示された。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Comprehensive Training and Evaluation on Deep Reinforcement Learning for
Automated Driving in Various Simulated Driving Maneuvers [0.4241054493737716]
本研究では、DQN(Deep Q-networks)とTRPO(Trust Region Policy Optimization)の2つのDRLアルゴリズムの実装、評価、比較を行う。
設計されたComplexRoads環境で訓練されたモデルは、他の運転操作にうまく適応でき、全体的な性能が期待できる。
論文 参考訳(メタデータ) (2023-06-20T11:41:01Z) - FastRLAP: A System for Learning High-Speed Driving via Deep RL and
Autonomous Practicing [71.76084256567599]
本稿では、自律型小型RCカーを強化学習(RL)を用いた視覚的観察から積極的に駆動するシステムを提案する。
我々のシステムであるFastRLAP (faster lap)は、人間の介入なしに、シミュレーションや専門家によるデモンストレーションを必要とせず、現実世界で自律的に訓練する。
結果として得られたポリシーは、タイミングブレーキや回転の加速度などの突発的な運転スキルを示し、ロボットの動きを妨げる領域を避け、トレーニングの途中で同様の1対1のインタフェースを使用して人間のドライバーのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2023-04-19T17:33:47Z) - Comparative Study of Q-Learning and NeuroEvolution of Augmenting
Topologies for Self Driving Agents [0.0]
自動運転車は世界中の自動車事故の数を削減できると期待されている。
進化的アルゴリズムと人工ニューラルネットワークを組み合わせた強化学習アルゴリズムとNeuroEvolution of Augment Topologies(NEAT)に注目して、モデルエージェントをトレーニングして、与えられたパス上での運転方法を学ぶ。
論文 参考訳(メタデータ) (2022-09-19T13:34:18Z) - Tackling Real-World Autonomous Driving using Deep Reinforcement Learning [63.3756530844707]
本研究では,加速と操舵角度を予測するニューラルネットワークを学習するモデルレスディープ強化学習プランナを提案する。
実際の自動運転車にシステムをデプロイするために、我々は小さなニューラルネットワークで表されるモジュールも開発する。
論文 参考訳(メタデータ) (2022-07-05T16:33:20Z) - Model-based Decision Making with Imagination for Autonomous Parking [50.41076449007115]
提案アルゴリズムは,駐車前に結果を予測するための想像モデル,高速探索ランダムツリー(RRT)の改良,経路平滑化モジュールの3つの部分から構成される。
われわれのアルゴリズムは、実際のキネマティックな車両モデルに基づいており、実際の自動運転車にアルゴリズムを適用するのにより適している。
アルゴリズムの有効性を評価するため,3つの異なる駐車シナリオにおいて,従来のRTとアルゴリズムを比較した。
論文 参考訳(メタデータ) (2021-08-25T18:24:34Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Reinforcement Learning Based Safe Decision Making for Highway Autonomous
Driving [1.995792341399967]
マルチレーン・シングルエージェント環境での自動運転車の安全な意思決定方法を開発した。
提案手法は深層強化学習を用いて,安全な戦術的意思決定のためのハイレベルな方針を実現する。
論文 参考訳(メタデータ) (2021-05-13T19:17:30Z) - Efficient Sampling-Based Maximum Entropy Inverse Reinforcement Learning
with Application to Autonomous Driving [35.44498286245894]
本稿では,効率的なサンプリングに基づく最大エントロピー逆強化学習(IRL)アルゴリズムを提案する。
提案アルゴリズムは,非対話的シナリオと対話的シナリオの両方を含む実運転データに基づいて評価する。
論文 参考訳(メタデータ) (2020-06-22T01:41:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。