論文の概要: Sim-To-Real Transfer for Miniature Autonomous Car Racing
- arxiv url: http://arxiv.org/abs/2011.05617v1
- Date: Wed, 11 Nov 2020 08:17:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 23:04:31.115361
- Title: Sim-To-Real Transfer for Miniature Autonomous Car Racing
- Title(参考訳): ミニチュアオートカーレーシングのシミュレート・トゥ・リアルトランスファー
- Authors: Yeong-Jia Roger Chu, Ting-Han Wei, Jin-Bo Huang, Yuan-Hao Chen, I-Chen
Wu
- Abstract要約: 本稿では,ラップタイムを損なうことなく,訓練されたレースカーモデルのロバスト性を高めることを目的とする。
まず、トレーニングトラックに適合するモデルをトレーニングし、ほぼ最適な経路に沿って移動します。
次に、このモデルを用いて、学生が正しいアクションをランダム化と共に教える。
- 参考スコア(独自算出の注目度): 6.252518457886398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sim-to-real, a term that describes where a model is trained in a simulator
then transferred to the real world, is a technique that enables faster deep
reinforcement learning (DRL) training. However, differences between the
simulator and the real world often cause the model to perform poorly in the
real world. Domain randomization is a way to bridge the sim-to-real gap by
exposing the model to a wide range of scenarios so that it can generalize to
real-world situations. However, following domain randomization to train an
autonomous car racing model with DRL can lead to undesirable outcomes. Namely,
a model trained with randomization tends to run slower; a higher completion
rate on the testing track comes at the expense of longer lap times. This paper
aims to boost the robustness of a trained race car model without compromising
racing lap times. For a training track and a testing track having the same
shape (and same optimal paths), but with different lighting, background, etc.,
we first train a model (teacher model) that overfits the training track, moving
along a near optimal path. We then use this model to teach a student model the
correct actions along with randomization. With our method, a model with 18.4\%
completion rate on the testing track is able to help teach a student model with
52\% completion. Moreover, over an average of 50 trials, the student is able to
finish a lap 0.23 seconds faster than the teacher. This 0.23 second gap is
significant in tight races, with lap times of about 10 to 12 seconds.
- Abstract(参考訳): sim-to-real(シミュレーション・トゥ・リアル)とは、シミュレータでモデルをトレーニングし、現実世界に転送する、という用語で、より高速な深層強化学習(drl)トレーニングを可能にする技術である。
しかし,シミュレータと実世界の違いにより,実世界ではモデルの性能が低下することがしばしばある。
ドメインランダム化(Domain randomization)は、シミュレーションから実際のギャップを埋めるために、モデルをさまざまなシナリオに公開し、現実の状況に一般化する方法である。
しかし、DRLで自律走行車のレースモデルを訓練するためのドメインランダム化に従えば、望ましくない結果につながる可能性がある。
すなわち、ランダム化で訓練されたモデルは、より遅く走る傾向があり、テストトラックの完成率が高いことは、より長いラップタイムを犠牲にする。
本稿では,レースラップタイムを損なうことなく,トレーニングされたレースカーモデルの堅牢性を高めることを目的とする。
同じ形状(同じ最適経路)だが、照明や背景などが異なるトレーニングトラックとテストトラックについては、まず、トレーニングトラックに過度に適合するモデル(教師モデル)をトレーニングし、ほぼ最適経路に沿って移動します。
次に、このモデルを用いて、学生モデルにランダム化と共に正しい行動を教える。
この方法では、試験コース上で18.4\%の完成率を持つモデルは、52\%の完成率を持つ学生モデルを教えるのに役立ちます。
さらに、平均50回の試験で、生徒は教師より0.23秒早く終わることができる。
この0.23秒差はタイトなレースでは重要であり、ラップタイムは約10秒から12秒である。
関連論文リスト
- Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Waymax: An Accelerated, Data-Driven Simulator for Large-Scale Autonomous
Driving Research [76.93956925360638]
Waymaxは、マルチエージェントシーンにおける自動運転のための新しいデータ駆動シミュレータである。
TPU/GPUなどのハードウェアアクセラレータで完全に動作し、トレーニング用のグラフ内シミュレーションをサポートする。
我々は、一般的な模倣と強化学習アルゴリズムのスイートをベンチマークし、異なる設計決定に関するアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-10-12T20:49:15Z) - Vehicle Dynamics Modeling for Autonomous Racing Using Gaussian Processes [0.0]
本稿では,自動走行における車両動力学の近似におけるGPモデルの適用性について,最も詳細な解析を行った。
人気のあるF1TENTHレーシングプラットフォームのための動的および拡張キネマティックモデルを構築した。
論文 参考訳(メタデータ) (2023-06-06T04:53:06Z) - Sense, Imagine, Act: Multimodal Perception Improves Model-Based
Reinforcement Learning for Head-to-Head Autonomous Racing [10.309579267966361]
モデルベース強化学習(MBRL)技術は、最近、現実の自律レースに有望な結果をもたらした。
本稿では,F1TENTH Gymから収集した自家中心型LiDARとRGBカメラ観測を組み合わせた自己教師型センサ融合手法を提案する。
その結果、ドリーマーのエージェントは衝突を安全に回避し、ゼロショット・ヘッド・ツー・ヘッド・オートレースでテストされた他のベースラインと比較すると、最も多くのレースに勝利した。
論文 参考訳(メタデータ) (2023-05-08T14:49:02Z) - An Adaptive Human Driver Model for Realistic Race Car Simulations [25.67586167621258]
我々は、レースドライバーの振る舞いをよりよく理解し、模倣学習に基づく適応的な人間のレースドライバーモデルを導入する。
我々のフレームワークは、ほぼ人間に近い性能で、目に見えないレーストラック上で、現実的な走行線分布を作成できることを示します。
論文 参考訳(メタデータ) (2022-03-03T18:39:50Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Autonomous Racing using a Hybrid Imitation-Reinforcement Learning
Architecture [0.5735035463793008]
本稿では,タイムアタックレースイベントにおけるラップタイムの最小化を目的とした,自動運転車のエンドツーエンド制御戦略を提案する。
また,正確な車体・環境力学をシミュレートするAutoRACEシミュレータも導入した。
論文 参考訳(メタデータ) (2021-10-11T17:26:55Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Formula RL: Deep Reinforcement Learning for Autonomous Racing using
Telemetry Data [4.042350304426975]
この問題を,車両のテレメトリと連続的な動作空間からなる多次元入力を用いて強化学習タスクとして構成する。
我々は,2つの実験において,Deep Deterministic Policy gradient (DDPG) の10変種をレースに投入した。
研究によると、rlでトレーニングされたモデルは、オープンソースの手作りロボットよりも高速に運転できるだけでなく、未知のトラックに一般化できる。
論文 参考訳(メタデータ) (2021-04-22T14:40:12Z) - Learning from Simulation, Racing in Reality [126.56346065780895]
ミニチュアレースカープラットフォーム上で自律的なレースを行うための強化学習ベースのソリューションを提案する。
シミュレーションで純粋に訓練されたポリシーは、実際のロボットのセットアップにうまく移行できることを示す。
論文 参考訳(メタデータ) (2020-11-26T14:58:49Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。