Fugu-MT 論文翻訳(概要): Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling

論文の概要: Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling

arxiv url: http://arxiv.org/abs/2301.01006v1
Date: Tue, 3 Jan 2023 08:52:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-04 14:41:35.131274
Title: Policy Pre-training for End-to-end Autonomous Driving via Self-supervised Geometric Modeling
Title（参考訳）: 自己教師付き幾何モデリングによるエンドツーエンド自動運転のためのポリシー事前学習
Authors: Penghao Wu, Li Chen, Hongyang Li, Xiaosong Jia, Junchi Yan, Yu Qiao
Abstract要約: PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
参考スコア（独自算出の注目度）: 96.31941517446859
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Witnessing the impressive achievements of pre-training techniques on large-scale data in the field of computer vision and natural language processing, we wonder whether this idea could be adapted in a grab-and-go spirit, and mitigate the sample inefficiency problem for visuomotor driving. Given the highly dynamic and variant nature of the input, the visuomotor driving task inherently lacks view and translation invariance, and the visual input contains massive irrelevant information for decision making, resulting in predominant pre-training approaches from general vision less suitable for the autonomous driving task. To this end, we propose PPGeo (Policy Pre-training via Geometric modeling), an intuitive and straightforward fully self-supervised framework curated for the policy pretraining in visuomotor driving. We aim at learning policy representations as a powerful abstraction by modeling 3D geometric scenes on large-scale unlabeled and uncalibrated YouTube driving videos. The proposed PPGeo is performed in two stages to support effective self-supervised training. In the first stage, the geometric modeling framework generates pose and depth predictions simultaneously, with two consecutive frames as input. In the second stage, the visual encoder learns driving policy representation by predicting the future ego-motion and optimizing with the photometric error based on current visual observation only. As such, the pre-trained visual encoder is equipped with rich driving policy related representations and thereby competent for multiple visuomotor driving tasks. Extensive experiments covering a wide span of challenging scenarios have demonstrated the superiority of our proposed approach, where improvements range from 2% to even over 100% with very limited data. Code and models will be available at https://github.com/OpenDriveLab/PPGeo.
Abstract（参考訳）: コンピュータビジョンと自然言語処理の分野での大規模データに対する事前学習技術が目覚ましい成果を生かし、このアイデアをつかみ取りの精神に適応させ、視覚運動運転におけるサンプル非効率問題を緩和できるかどうか疑問視する。インプットの非常にダイナミックで変動的な性質から、ビズモータ駆動タスクは本質的にビューと翻訳の不変性を欠いており、視覚入力には意思決定に大きく無関係な情報が含まれており、その結果、一般的な視覚からのトレーニング前のアプローチは自律運転タスクには適さない。そこで本研究では,ビジュモータ駆動における政策事前学習のための,直感的で直接的な完全自己教師型フレームワークであるPPGeoを提案する。 3d幾何学的シーンを、ラベルなしの大規模youtube運転ビデオでモデル化することで、ポリシー表現を強力な抽象化として学習することを目指している。提案するppgeoは,効果的な自己監督訓練を支援するために2段階で行われる。第1段階では、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。これにより、事前学習されたビジュアルエンコーダは、リッチな駆動ポリシー関連表現を備え、複数の振動子駆動タスクに適する。幅広い難易度シナリオをカバーする広範な実験が提案手法の優位性を実証し、ごく限られたデータで2%から100%以上改善できることを示した。コードとモデルはhttps://github.com/opendrivelab/ppgeoで入手できる。

関連論文リスト

GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving [12.889523014369884]
本稿では,時空における任意の将来点を予測して統一表現を学習する幾何学的,意味論的自己教師型事前学習手法GASPを提案する。実測値の代わりに幾何学的および意味論的4次元占有場をモデル化することにより、モデルは、時間を通して環境と環境の一般的な表現を学習する。
論文参考訳（メタデータ） (2025-03-19T20:00:27Z)
Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。 GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文参考訳（メタデータ） (2025-01-15T15:20:46Z)
GPD-1: Generative Pre-training for Driving [77.06803277735132]
本稿では,これらすべてのタスクを実現するために,GPD-1(Generative Pre-Training for Driving)モデルを提案する。それぞれのシーンをエゴ、エージェント、マップトークンで表現し、統一トークン生成問題として自律運転を定式化する。 GPD-1は、シーン生成、交通シミュレーション、クローズドループシミュレーション、マップ予測、モーションプランニングなど、微調整なしで様々なタスクに適応する。
論文参考訳（メタデータ） (2024-12-11T18:59:51Z)
Human Insights Driven Latent Space for Different Driving Perspectives: A Unified Encoder for Efficient Multi-Task Inference [43.474068248379815]
都市交通に不可欠な複数のコンピュータビジョンタスクを訓練した統一型エンコーダを提案する。人間の知覚機構に類似した多様な視覚的手がかりを統合することで、エンコーダはナビゲーション関連の予測を強化する豊富な特徴をキャプチャする。その結果,(1) 統合エンコーダは,すべての視覚的認識タスク間での競合性能を達成し,強力な一般化能力を示すこと,(2) ステアリング推定のために,凍結された統合エンコーダを平均化することにより,その微細な調整された表現と,ImageNetのような汎用データセットで事前訓練された同じ凍結モデルの両方に優れることがわかった。
論文参考訳（メタデータ） (2024-09-16T08:54:03Z)
End-to-End Autonomous Driving without Costly Modularization and 3D Manual Annotation [34.070813293944944]
視覚に基づくエンドツーエンド自動運転(E2EAD)のためのUADを提案する。私たちのモチベーションは、現在のE2EADモデルが依然として典型的な駆動スタックのモジュラーアーキテクチャを模倣していることに起因しています。我々のUADは、NUScenesにおける平均衝突速度において、UniADに対して38.7%の相対的な改善を達成し、CARLAのCown05 Longベンチマークの駆動スコアにおいて、VADを41.32ポイント上回っている。
論文参考訳（メタデータ） (2024-06-25T16:12:52Z)
Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。 LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文参考訳（メタデータ） (2024-06-12T17:59:21Z)
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。 DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文参考訳（メタデータ） (2024-05-07T15:14:20Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
On depth prediction for autonomous driving using self-supervised learning [0.0]
この論文は、単眼の自己教師型学習技術を用いた深度予測の課題に焦点を当てている。この問題は、条件付き生成逆ネットワーク(cGAN)を探索する、より広い視点からアプローチされる。第2のコントリビューションは、厳密な前提に対する解決策を提案する、単一のイメージ・ツー・ディープス・セルフ教師方式を含む。 3つ目の重要な側面は、ビデオから深度マップの予測アプローチの導入である。
論文参考訳（メタデータ） (2024-03-10T12:33:12Z)
What Makes Pre-Trained Visual Representations Successful for Robust Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文参考訳（メタデータ） (2023-11-03T18:09:08Z)
Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文参考訳（メタデータ） (2023-09-18T19:49:22Z)
Visual Reinforcement Learning with Self-Supervised 3D Representations [15.991546692872841]
運動制御のための3次元表現の自己教師型学習のための統一的な枠組みを提案する。本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率の向上を享受する。
論文参考訳（メタデータ） (2022-10-13T17:59:55Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。