論文の概要: Scaling Self-Supervised End-to-End Driving with Multi-View Attention
Learning
- arxiv url: http://arxiv.org/abs/2302.03198v1
- Date: Tue, 7 Feb 2023 02:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 17:45:06.157436
- Title: Scaling Self-Supervised End-to-End Driving with Multi-View Attention
Learning
- Title(参考訳): マルチビュー注意学習によるエンドツーエンド運転のスケーリング
- Authors: Yi Xiao, Felipe Codevilla, Diego Porres Bustamante, Antonio M. Lopez
- Abstract要約: 本稿では,自己監督型模倣学習によって訓練された新たなエンド・ツー・エンド・モデルを提案する。
自己教師付きトレーニングデータだけで、私たちのモデルは、CARLAのNocrashメトリクスでほぼ専門的なパフォーマンスが得られる。
- 参考スコア(独自算出の注目度): 7.14967754486195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On end-to-end driving, a large amount of expert driving demonstrations is
used to train an agent that mimics the expert by predicting its control
actions. This process is self-supervised on vehicle signals (e.g., steering
angle, acceleration) and does not require extra costly supervision (human
labeling). Yet, the improvement of existing self-supervised end-to-end driving
models has mostly given room to modular end-to-end models where labeling data
intensive format such as semantic segmentation are required during training
time. However, we argue that the latest self-supervised end-to-end models were
developed in sub-optimal conditions with low-resolution images and no attention
mechanisms. Further, those models are confined with limited field of view and
far from the human visual cognition which can quickly attend far-apart scene
features, a trait that provides an useful inductive bias. In this context, we
present a new end-to-end model, trained by self-supervised imitation learning,
leveraging a large field of view and a self-attention mechanism. These settings
are more contributing to the agent's understanding of the driving scene, which
brings a better imitation of human drivers. With only self-supervised training
data, our model yields almost expert performance in CARLA's Nocrash metrics and
could be rival to the SOTA models requiring large amounts of human labeled
data. To facilitate further research, our code will be released.
- Abstract(参考訳): エンドツーエンドの運転では、制御動作を予測することによって専門家を模倣するエージェントを訓練するために、多数の専門家による運転デモが使用される。
このプロセスは車両信号(例えばステアリング角、加速度)で自己監督され、追加のコスト監督(人間のラベル付け)を必要としない。
しかし、既存の自己監督型エンドツーエンド駆動モデルの改善は、トレーニング期間中にセマンティックセグメンテーションのようなデータ集約的なフォーマットをラベル付けするモジュール型のエンドツーエンドモデルにほとんど余地を与えている。
しかし,低解像度画像と注意機構のない準最適条件下で,最新の自己監督型エンドツーエンドモデルを開発した。
さらに、これらのモデルは限られた視野で制限されており、人間の視覚認知から遠く離れており、その特徴は有用な帰納的バイアスをもたらす。
そこで本研究では,自己教師付き模倣学習によって訓練された新しいエンド・ツー・エンドモデルを提案する。
これらの設定は、運転シーンに対するエージェントの理解にさらに寄与し、人間のドライバーをより良く模倣する。
自己教師付きトレーニングデータのみを用いれば,carlaのnocrashメトリクスのエキスパートパフォーマンスがほぼ向上し,大量のラベル付きデータを必要とするsomaモデルに匹敵する可能性がある。
さらなる研究を容易にするため、私たちのコードはリリースされます。
関連論文リスト
- Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked
Vehicles [54.61668577827041]
本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。
われわれのAutoCastSim実験は、我々の協調知覚駆動モデルが平均成功率を40%向上させることを示唆している。
論文 参考訳(メタデータ) (2022-05-04T17:55:12Z) - TransDARC: Transformer-based Driver Activity Recognition with Latent
Space Feature Calibration [31.908276711898548]
本稿では、視覚変換器に基づく二次運転行動認識のための視覚ベースのフレームワークと、機能分散キャリブレーションモジュールを提案する。
当社のフレームワークは,すべてのレベルにおいて,公的なDrive&Actベンチマークの過去の成果を上回り,認識率を常に向上させています。
論文 参考訳(メタデータ) (2022-03-02T08:14:06Z) - Vision-Based Autonomous Car Racing Using Deep Imitative Reinforcement
Learning [13.699336307578488]
深層模倣強化学習(DIRL)は、視覚入力を使用してアジャイルな自律レースを実現する。
我々は,高忠実性運転シミュレーションと実世界の1/20スケールRC-car上での車載計算の制限により,本アルゴリズムの有効性を検証した。
論文 参考訳(メタデータ) (2021-07-18T00:00:48Z) - Self-Supervised Steering Angle Prediction for Vehicle Control Using
Visual Odometry [55.11913183006984]
視覚オドメトリー法を用いて推定したカメラポーズを用いて,車両の軌道制御をモデルに訓練する方法を示す。
車両の前方にカメラを設置することにより,複数の異なる走行経路からの軌跡情報を活用するスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-20T16:29:01Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Action-Based Representation Learning for Autonomous Driving [8.296684637620551]
本稿では,行動に基づく運転データを学習表現に用いることを提案する。
提案手法を用いて事前学習した空き時間に基づく運転モデルでは,比較的少量の弱注釈画像が有効であることを示す。
論文 参考訳(メタデータ) (2020-08-21T10:49:13Z) - Learning Accurate and Human-Like Driving using Semantic Maps and
Attention [152.48143666881418]
本稿では,より正確かつ人間らしく運転できるエンド・ツー・エンド駆動モデルについて検討する。
HERE Technologiesのセマンティックマップとビジュアルマップを活用し、既存のDrive360データセットを拡張します。
私たちのモデルは、実世界の運転データ60時間3000kmのDrive360+HEREデータセットでトレーニングされ、評価されています。
論文 参考訳(メタデータ) (2020-07-10T22:25:27Z) - Explaining Autonomous Driving by Learning End-to-End Visual Attention [25.09407072098823]
現在のディープラーニングベースの自律運転アプローチは、いくつかの制御されたシナリオにおいて、本番環境へのデプロイも実現している。
最も人気があり魅力的なアプローチの1つは、センサーが認識したデータから直接車両の制御を学習することに依存している。
このアプローチの主な欠点は、他の学習問題と同様に、説明可能性の欠如である。実際、ディープネットワークは、なぜそのような決定を下されたのかを何のフィードバックも与えずに、これまで見られた駆動パターンによって予測を出力するブラックボックスとして機能する。
論文 参考訳(メタデータ) (2020-06-05T10:12:31Z) - Learning by Cheating [72.9701333689606]
この難解な学習問題を2段階に分解することで単純化できることを示す。
提案手法を用いて、視覚に基づく自律運転システムの訓練を行い、芸術の状況を大幅に上回っている。
提案手法は,従来のCARLAベンチマークのすべてのタスクにおける100%の成功率を初めて達成し,NoCrashベンチマークに新しい記録を樹立し,従来の技術と比較すると,屈折率を桁違いに低減する。
論文 参考訳(メタデータ) (2019-12-27T18:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。