論文の概要: Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling
- arxiv url: http://arxiv.org/abs/2301.01006v1
- Date: Tue, 3 Jan 2023 08:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 14:41:35.131274
- Title: Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling
- Title(参考訳): 自己教師付き幾何モデリングによるエンドツーエンド自動運転のためのポリシー事前学習
- Authors: Penghao Wu, Li Chen, Hongyang Li, Xiaosong Jia, Junchi Yan, Yu Qiao
- Abstract要約: PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
- 参考スコア(独自算出の注目度): 96.31941517446859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Witnessing the impressive achievements of pre-training techniques on
large-scale data in the field of computer vision and natural language
processing, we wonder whether this idea could be adapted in a grab-and-go
spirit, and mitigate the sample inefficiency problem for visuomotor driving.
Given the highly dynamic and variant nature of the input, the visuomotor
driving task inherently lacks view and translation invariance, and the visual
input contains massive irrelevant information for decision making, resulting in
predominant pre-training approaches from general vision less suitable for the
autonomous driving task. To this end, we propose PPGeo (Policy Pre-training via
Geometric modeling), an intuitive and straightforward fully self-supervised
framework curated for the policy pretraining in visuomotor driving. We aim at
learning policy representations as a powerful abstraction by modeling 3D
geometric scenes on large-scale unlabeled and uncalibrated YouTube driving
videos. The proposed PPGeo is performed in two stages to support effective
self-supervised training. In the first stage, the geometric modeling framework
generates pose and depth predictions simultaneously, with two consecutive
frames as input. In the second stage, the visual encoder learns driving policy
representation by predicting the future ego-motion and optimizing with the
photometric error based on current visual observation only. As such, the
pre-trained visual encoder is equipped with rich driving policy related
representations and thereby competent for multiple visuomotor driving tasks.
Extensive experiments covering a wide span of challenging scenarios have
demonstrated the superiority of our proposed approach, where improvements range
from 2% to even over 100% with very limited data. Code and models will be
available at https://github.com/OpenDriveLab/PPGeo.
- Abstract(参考訳): コンピュータビジョンと自然言語処理の分野での大規模データに対する事前学習技術が目覚ましい成果を生かし、このアイデアをつかみ取りの精神に適応させ、視覚運動運転におけるサンプル非効率問題を緩和できるかどうか疑問視する。
インプットの非常にダイナミックで変動的な性質から、ビズモータ駆動タスクは本質的にビューと翻訳の不変性を欠いており、視覚入力には意思決定に大きく無関係な情報が含まれており、その結果、一般的な視覚からのトレーニング前のアプローチは自律運転タスクには適さない。
そこで本研究では,ビジュモータ駆動における政策事前学習のための,直感的で直接的な完全自己教師型フレームワークであるPPGeoを提案する。
3d幾何学的シーンを、ラベルなしの大規模youtube運転ビデオでモデル化することで、ポリシー表現を強力な抽象化として学習することを目指している。
提案するppgeoは,効果的な自己監督訓練を支援するために2段階で行われる。
第1段階では、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
これにより、事前学習されたビジュアルエンコーダは、リッチな駆動ポリシー関連表現を備え、複数の振動子駆動タスクに適する。
幅広い難易度シナリオをカバーする広範な実験が提案手法の優位性を実証し、ごく限られたデータで2%から100%以上改善できることを示した。
コードとモデルはhttps://github.com/opendrivelab/ppgeoで入手できる。
関連論文リスト
- On depth prediction for autonomous driving using self-supervised
learning [0.0]
この論文は、単眼の自己教師型学習技術を用いた深度予測の課題に焦点を当てている。
この問題は、条件付き生成逆ネットワーク(cGAN)を探索する、より広い視点からアプローチされる。
第2のコントリビューションは、厳密な前提に対する解決策を提案する、単一のイメージ・ツー・ディープス・セルフ教師方式を含む。
3つ目の重要な側面は、ビデオから深度マップの予測アプローチの導入である。
論文 参考訳(メタデータ) (2024-03-10T12:33:12Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Model-Based Imitation Learning for Urban Driving [26.782783239210087]
MILE: 世界のモデルと自律運転のポリシーを共同で学習するためのモデルに基づくImitation LEarningアプローチを提案する。
本モデルでは, 都市運転データのオフラインコーパスを用いて, 環境とのオンラインインタラクションを伴わない訓練を行った。
我々のアプローチは、都市運転環境における静的シーン、ダイナミックシーン、エゴビヘイビアをモデル化する最初のカメラのみの手法である。
論文 参考訳(メタデータ) (2022-10-14T11:59:46Z) - Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。
本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文 参考訳(メタデータ) (2022-10-13T17:59:55Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Vision-Guided Forecasting -- Visual Context for Multi-Horizon Time
Series Forecasting [0.6947442090579469]
2つのモードを融合させて車両状態のマルチ水平予測に取り組む。
我々は,視覚的特徴抽出のための3次元畳み込みと,速度と操舵角度トレースからの特徴抽出のための1次元畳み込みの設計と実験を行った。
我々は,車両の状態を様々な地平線に予測でき,運転状態推定のタスクにおいて,現在の最先端結果よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-27T08:52:40Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。