論文の概要: SelfD: Self-Learning Large-Scale Driving Policies From the Web
- arxiv url: http://arxiv.org/abs/2204.10320v1
- Date: Thu, 21 Apr 2022 17:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 13:00:19.132129
- Title: SelfD: Self-Learning Large-Scale Driving Policies From the Web
- Title(参考訳): SelfD: Webから学習する大規模運転ポリシー
- Authors: Jimuyang Zhang and Ruizhao Zhu and Eshed Ohn-Bar
- Abstract要約: SelfDは、大量のオンラインモノクロイメージを利用することで、スケーラブルな運転を学ぶためのフレームワークである。
公開されているYouTubeビデオの大規模なデータセットを使用して、SelfDをトレーニングし、その一般化のメリットを、困難なナビゲーションシナリオ全体にわたって包括的に分析します。
- 参考スコア(独自算出の注目度): 13.879536370173506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively utilizing the vast amounts of ego-centric navigation data that is
freely available on the internet can advance generalized intelligent systems,
i.e., to robustly scale across perspectives, platforms, environmental
conditions, scenarios, and geographical locations. However, it is difficult to
directly leverage such large amounts of unlabeled and highly diverse data for
complex 3D reasoning and planning tasks. Consequently, researchers have
primarily focused on its use for various auxiliary pixel- and image-level
computer vision tasks that do not consider an ultimate navigational objective.
In this work, we introduce SelfD, a framework for learning scalable driving by
utilizing large amounts of online monocular images. Our key idea is to leverage
iterative semi-supervised training when learning imitative agents from
unlabeled data. To handle unconstrained viewpoints, scenes, and camera
parameters, we train an image-based model that directly learns to plan in the
Bird's Eye View (BEV) space. Next, we use unlabeled data to augment the
decision-making knowledge and robustness of an initially trained model via
self-training. In particular, we propose a pseudo-labeling step which enables
making full use of highly diverse demonstration data through "hypothetical"
planning-based data augmentation. We employ a large dataset of publicly
available YouTube videos to train SelfD and comprehensively analyze its
generalization benefits across challenging navigation scenarios. Without
requiring any additional data collection or annotation efforts, SelfD
demonstrates consistent improvements (by up to 24%) in driving performance
evaluation on nuScenes, Argoverse, Waymo, and CARLA.
- Abstract(参考訳): インターネット上で自由に利用できる膨大なエゴ中心のナビゲーションデータを効果的に活用することで、一般化されたインテリジェントシステム、すなわち、視点、プラットフォーム、環境条件、シナリオ、地理的位置を堅牢にスケールすることができる。
しかし、複雑な3D推論や計画作業において、そのような大量のラベルのない非常に多様なデータを直接活用することは困難である。
その結果、研究者は主に、究極のナビゲーション目的を考慮しない様々な補助ピクセルおよび画像レベルのコンピュータビジョンタスクに焦点を合わせてきた。
本稿では,多量のオンライン単眼画像を用いて,スケーラブル運転を学習するためのフレームワークであるselfdを紹介する。
私たちの重要なアイデアは、ラベルなしのデータから模倣エージェントを学ぶときに反復的な半教師付きトレーニングを活用することです。
制約のない視点、シーン、カメラパラメータを扱うために、私たちは、バードアイビュー(BEV)空間で計画を直接学習するイメージベースモデルを訓練する。
次に,ラベルのないデータを用いて,自己学習による初期訓練モデルの意思決定知識と頑健性を高める。
特に,「仮説的」計画に基づくデータ拡張を通じて,多種多様な実演データを完全に活用できる擬似ラベル方式を提案する。
公開されているYouTubeビデオの大規模なデータセットを使用して、SelfDをトレーニングし、その一般化のメリットを、困難なナビゲーションシナリオ全体で包括的に分析します。
追加のデータ収集やアノテーションの労力を必要とせずに、SelfDはnuScenes、Argoverse、Waymo、CARLAのパフォーマンス評価を駆動する一貫した改善(最大24%)を実証している。
関連論文リスト
- UdeerLID+: Integrating LiDAR, Image, and Relative Depth with Semi-Supervised [12.440461420762265]
道路分割は自動運転システムにとって重要な課題である。
我々の研究は、LiDARポイントクラウドデータ、ビジュアルイメージ、および相対深度マップを統合する革新的なアプローチを導入している。
主な課題の1つは、大規模で正確にラベル付けされたデータセットの不足である。
論文 参考訳(メタデータ) (2024-09-10T03:57:30Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - Image Data Augmentation for Deep Learning: A Survey [8.817690876855728]
我々は、異なる画像データ拡張手法を体系的にレビューする。
本稿では,レビュー手法の分類法を提案し,これらの手法の長所と短所について述べる。
また,3種類のコンピュータビジョンタスクに対して,様々なデータ拡張手法による広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-04-19T02:05:56Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Geo-Context Aware Study of Vision-Based Autonomous Driving Models and
Spatial Video Data [9.883009014227815]
視覚に基づくディープラーニング(DL)手法は,大規模クラウドソースのビデオデータセットから自律走行モデルの学習に大きな進歩をもたらした。
我々は,大規模ADMビデオデータとともに,自律運転モデル(ADM)予測のための地理コンテキスト対応可視化システムを開発した。
論文 参考訳(メタデータ) (2021-08-20T17:33:54Z) - SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous
Driving [94.11868795445798]
我々は,SODA10Mという名の自律走行用大規模物体検出ベンチマークをリリースし,1000万枚の未ラベル画像と6つの代表対象カテゴリをラベル付けした20K画像を含む。
多様性を向上させるために、画像は32の異なる都市で、1フレームあたり10秒毎に異なる気象条件、期間、場所のシーンで収集される。
我々は、既存の教師付き最先端検出モデル、一般的な自己監督型および半教師付きアプローチ、および将来のモデルの開発方法に関するいくつかの知見について、広範な実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2021-06-21T13:55:57Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。