論文の概要: Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling
- arxiv url: http://arxiv.org/abs/2301.01006v1
- Date: Tue, 3 Jan 2023 08:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:41:35.131274
- Title: Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling
- Title(参考訳): 自己教師付き幾何モデリングによるエンドツーエンド自動運転のためのポリシー事前学習
- Authors: Penghao Wu, Li Chen, Hongyang Li, Xiaosong Jia, Junchi Yan, Yu Qiao
- Abstract要約: PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
- 参考スコア(独自算出の注目度): 96.31941517446859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Witnessing the impressive achievements of pre-training techniques on
large-scale data in the field of computer vision and natural language
processing, we wonder whether this idea could be adapted in a grab-and-go
spirit, and mitigate the sample inefficiency problem for visuomotor driving.
Given the highly dynamic and variant nature of the input, the visuomotor
driving task inherently lacks view and translation invariance, and the visual
input contains massive irrelevant information for decision making, resulting in
predominant pre-training approaches from general vision less suitable for the
autonomous driving task. To this end, we propose PPGeo (Policy Pre-training via
Geometric modeling), an intuitive and straightforward fully self-supervised
framework curated for the policy pretraining in visuomotor driving. We aim at
learning policy representations as a powerful abstraction by modeling 3D
geometric scenes on large-scale unlabeled and uncalibrated YouTube driving
videos. The proposed PPGeo is performed in two stages to support effective
self-supervised training. In the first stage, the geometric modeling framework
generates pose and depth predictions simultaneously, with two consecutive
frames as input. In the second stage, the visual encoder learns driving policy
representation by predicting the future ego-motion and optimizing with the
photometric error based on current visual observation only. As such, the
pre-trained visual encoder is equipped with rich driving policy related
representations and thereby competent for multiple visuomotor driving tasks.
Extensive experiments covering a wide span of challenging scenarios have
demonstrated the superiority of our proposed approach, where improvements range
from 2% to even over 100% with very limited data. Code and models will be
available at https://github.com/OpenDriveLab/PPGeo.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の分野での大規模データに対する事前学習技術が目覚ましい成果を生かし、このアイデアをつかみ取りの精神に適応させ、視覚運動運転におけるサンプル非効率問題を緩和できるかどうか疑問視する。
インプットの非常にダイナミックで変動的な性質から、ビズモータ駆動タスクは本質的にビューと翻訳の不変性を欠いており、視覚入力には意思決定に大きく無関係な情報が含まれており、その結果、一般的な視覚からのトレーニング前のアプローチは自律運転タスクには適さない。
そこで本研究では,ビジュモータ駆動における政策事前学習のための,直感的で直接的な完全自己教師型フレームワークであるPPGeoを提案する。
3d幾何学的シーンを、ラベルなしの大規模youtube運転ビデオでモデル化することで、ポリシー表現を強力な抽象化として学習することを目指している。
提案するppgeoは,効果的な自己監督訓練を支援するために2段階で行われる。
第1段階では、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
これにより、事前学習されたビジュアルエンコーダは、リッチな駆動ポリシー関連表現を備え、複数の振動子駆動タスクに適する。
幅広い難易度シナリオをカバーする広範な実験が提案手法の優位性を実証し、ごく限られたデータで2%から100%以上改善できることを示した。
コードとモデルはhttps://github.com/opendrivelab/ppgeoで入手できる。
関連論文リスト
- End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。
私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。
我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文 参考訳(メタデータ) (2024-06-25T16:12:52Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - On depth prediction for autonomous driving using self-supervised
learning [0.0]
この論文は、単眼の自己教師型学習技術を用いた深度予測の課題に焦点を当てている。
この問題は、条件付き生成逆ネットワーク(cGAN)を探索する、より広い視点からアプローチされる。
第2のコントリビューションは、厳密な前提に対する解決策を提案する、単一のイメージ・ツー・ディープス・セルフ教師方式を含む。
3つ目の重要な側面は、ビデオから深度マップの予測アプローチの導入である。
論文 参考訳(メタデータ) (2024-03-10T12:33:12Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。