論文の概要: Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos
- arxiv url: http://arxiv.org/abs/2602.22091v1
- Date: Wed, 25 Feb 2026 16:38:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.912465
- Title: Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos
- Title(参考訳): 学習からドライブへ:非表示の非表示ビデオから学習する大規模ラベルなし自律学習
- Authors: Matthew Strong, Wei-Jer Chang, Quentin Herau, Jiezhi Yang, Yihan Hu, Chensheng Peng, Wei Zhan,
- Abstract要約: オンラインで利用できるエゴ中心の運転ビデオは、自動運転のための豊富な視覚的データを提供する。
本研究では,未提示ビデオから直接自律運転表現を学習するための,ラベルのない教師誘導型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.73513310337503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ego-centric driving videos available online provide an abundant source of visual data for autonomous driving, yet their lack of annotations makes it difficult to learn representations that capture both semantic structure and 3D geometry. Recent advances in large feedforward spatial models demonstrate that point maps and ego-motion can be inferred in a single forward pass, suggesting a promising direction for scalable driving perception. We therefore propose a label-free, teacher-guided framework for learning autonomous driving representations directly from unposed videos. Unlike prior self-supervised approaches that focus primarily on frame-to-frame consistency, we posit that safe and reactive driving depends critically on temporal context. To this end, we leverage a feedforward architecture equipped with a lightweight autoregressive module, trained using multi-modal supervisory signals that guide the model to jointly predict current and future point maps, camera poses, semantic segmentation, and motion masks. Multi-modal teachers provide sequence-level pseudo-supervision, enabling LFG to learn a unified pseudo-4D representation from raw YouTube videos without poses, labels, or LiDAR. The resulting encoder not only transfers effectively to downstream autonomous driving planning on the NAVSIM benchmark, surpassing multi-camera and LiDAR baselines with only a single monocular camera, but also yields strong performance when evaluated on a range of semantic, geometric, and qualitative motion prediction tasks. These geometry and motion-aware features position LFG as a compelling video-centric foundation model for autonomous driving.
- Abstract(参考訳): オンラインで利用可能なエゴ中心の運転ビデオは、自律運転のための豊富な視覚データソースを提供するが、アノテーションの欠如により、セマンティック構造と3D幾何学の両方をキャプチャする表現を習得することは困難である。
大規模なフィードフォワード空間モデルにおける最近の進歩は、ポイントマップとエゴモーションを単一の前方通過で推定できることを示し、スケーラブルな駆動知覚のための有望な方向を示唆している。
そこで本稿では,未提案のビデオから直接自律運転表現を学習するための,ラベルのない教師誘導型フレームワークを提案する。
フレーム・ツー・フレームの一貫性に重点を置く従来の自己監督型アプローチとは異なり、安全でリアクティブな運転は時間的文脈に批判的に依存すると仮定する。
この目的のために,マルチモーダル・スーパーバイザリ信号を用いてトレーニングし,現在および将来のポイントマップ,カメラポーズ,セマンティックセグメンテーション,モーションマスクを共同で予測する,軽量な自己回帰モジュールを備えたフィードフォワードアーキテクチャを利用する。
マルチモーダル教師はシーケンスレベルの擬似スーパービジョンを提供しており、LFGはポーズ、ラベル、LiDARなしで生のYouTubeビデオから統一された擬似4D表現を学習することができる。
結果として得られたエンコーダは、NAVSIMベンチマークで下流の自動運転計画に効果的に移行し、単一の単眼カメラでマルチカメラとLiDARベースラインを超えるだけでなく、セマンティック、幾何学的、定性的動作予測タスクで評価すると、高いパフォーマンスが得られる。
これらの幾何学と動き認識は、LFGを自動運転のための魅力的なビデオ中心の基礎モデルとして位置づけている。
関連論文リスト
- VGGDrive: Empowering Vision-Language Models with Cross-View Geometric Grounding for Autonomous Driving [26.557803260279258]
自律運転のためのクロスビュー3D幾何モデリング能力は自明であるが、既存のビジョンランゲージモデルには本質的にこの能力がない。
本稿では,視覚言語モデルに自律走行のための幾何学的グラウンドリングを用いた新しいアーキテクチャ,VGGDriveを提案する。
論文 参考訳(メタデータ) (2026-02-24T11:33:44Z) - InstaDrive: Instance-Aware Driving World Models for Realistic and Consistent Video Generation [53.47253633654885]
InstaDriveは、2つの重要な進歩を通じてビデオリアリズムを促進する新しいフレームワークである。
これらのインスタンス認識機構を組み込むことで、InstaDriveは最先端のビデオ生成品質を実現する。
私たちのプロジェクトページはhttps://shanpoyang654.io/InstaDrive/page.htmlです。
論文 参考訳(メタデータ) (2026-02-03T08:22:13Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - DriveVGGT: Visual Geometry Transformer for Autonomous Driving [50.5036123750788]
DriveVGGTは、自動運転データ用に特別に設計された、スケール対応の4D再構成フレームワークである。
マルチカメラ映像を個別に処理するための時間的ビデオアテンション(TVA)モジュールを提案する。
そこで本研究では,正規化された相対ポーズ埋め込みによるウィンドウアテンションを実現するため,マルチカメラ・コンセントレンシ・アテンション(MCA)モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:40:43Z) - Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving [7.921556303360947]
我々は,一段階のエンドツーエンド自動運転のための新しいフレームワークであるMax-V1を紹介する。
我々のフレームワークは、運転の本質的にの順序性と整合した単一パス生成パラダイムを提供する。
実験により,本手法はnuScenesデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-29T05:14:18Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous
Driving Tasks [11.489187712465325]
自律運転システムは、世界の抽象的な記述を形成するために、様々なセンサから収集した情報を効果的に活用すべきである。
オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。
この研究は、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習する、複合dynAmicautoencodeRネットワークアーキテクチャであるCARNetを提案する。
論文 参考訳(メタデータ) (2022-05-18T04:15:42Z) - Self-Supervised Pillar Motion Learning for Autonomous Driving [10.921208239968827]
本研究では,点群からの自由監視信号と対カメラ画像を利用した学習フレームワークを提案する。
本モデルでは,確率的運動マスキングを付加した点雲に基づく構造整合性と,所望の自己超越を実現するためのクロスセンサ運動正規化を含む。
論文 参考訳(メタデータ) (2021-04-18T02:32:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。