論文の概要: S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation
- arxiv url: http://arxiv.org/abs/2505.24139v1
- Date: Fri, 30 May 2025 02:20:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.731201
- Title: S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Modelwith Spatio-Temporal Visual Representation
- Title(参考訳): S4-Driver:時空間視覚表現を用いたスケーラブルな自己監督型多モーダル大規模言語モデル
- Authors: Yichen Xie, Runsheng Xu, Tong He, Jyh-Jing Hwang, Katie Luo, Jingwei Ji, Hubert Lin, Letian Chen, Yiren Lu, Zhaoqi Leng, Dragomir Anguelov, Mingxing Tan,
- Abstract要約: 本研究では,Pa時間視覚表現を用いたスケーラブルな自己教師型動作計画アルゴリズムであるS4-Driverを提案する。
S4-Driverは、MLLMの強力な視覚表現を視点から3D空間へシームレスに変換するために、新しいスパースボリューム戦略を使用する。
その結果、S4-Driverは、既存のマルチタスクアプローチに対して、人間のアノテーションを必要とせず、好意的に機能することがわかった。
- 参考スコア(独自算出の注目度): 43.166013120841455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The latest advancements in multi-modal large language models (MLLMs) have spurred a strong renewed interest in end-to-end motion planning approaches for autonomous driving. Many end-to-end approaches rely on human annotations to learn intermediate perception and prediction tasks, while purely self-supervised approaches--which directly learn from sensor inputs to generate planning trajectories without human annotations often underperform the state of the art. We observe a key gap in the input representation space: end-to-end approaches built on MLLMs are often pretrained with reasoning tasks in 2D image space rather than the native 3D space in which autonomous vehicles plan. To this end, we propose S4-Driver, a scalable self-supervised motion planning algorithm with spatio-temporal visual representation, based on the popular PaLI multimodal large language model. S4-Driver uses a novel sparse volume strategy to seamlessly transform the strong visual representation of MLLMs from perspective view to 3D space without the need to finetune the vision encoder. This representation aggregates multi-view and multi-frame visual inputs and enables better prediction of planning trajectories in 3D space. To validate our method, we run experiments on both nuScenes and Waymo Open Motion Dataset (with in-house camera data). Results show that S4-Driver performs favorably against existing supervised multi-task approaches while requiring no human annotations. It also demonstrates great scalability when pretrained on large volumes of unannotated driving logs.
- Abstract(参考訳): MLLM(Multi-modal large language model)の最新の進歩は、自動運転のためのエンドツーエンドのモーションプランニングアプローチへの強い関心を喚起している。
エンド・ツー・エンドのアプローチの多くは、中間認識と予測タスクを学ぶために人間のアノテーションに依存している。
MLLM上に構築されたエンドツーエンドアプローチは、自動運転車が計画するネイティブな3D空間ではなく、2D画像空間における推論タスクで事前訓練されることが多い。
そこで本研究では,PALIマルチモーダル大言語モデルに基づく時空間視覚表現を備えたスケーラブルな自己教師型動作計画アルゴリズムであるS4-Driverを提案する。
S4-Driverは、視覚エンコーダを微調整することなく、視点から3次元空間へMLLMの強い視覚表現をシームレスに変換するために、新しいスパースボリューム戦略を使用する。
この表現は、多視点および多フレーム視覚入力を集約し、3次元空間における計画軌道のより良い予測を可能にする。
提案手法を検証するために, nuScenes と Waymo Open Motion Dataset の2つの実験を行った。
その結果、S4-Driverは、既存のマルチタスクアプローチに対して、人間のアノテーションを必要とせず、好意的に機能することがわかった。
また、大量の未通知の運転ログで事前トレーニングを行うと、スケーラビリティも向上する。
関連論文リスト
- Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving [45.82124136705798]
DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
論文 参考訳(メタデータ) (2025-05-13T16:36:51Z) - Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [2.0122032639916485]
我々は、セマンティックラベルの効果的な知識蒸留を、より小さなビジョンネットワークに解析する。
これは、複雑なシーンのセマンティックな表現として、計画と制御のための下流の意思決定に使用することができる。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - MIM4D: Masked Modeling with Multi-View Video for Autonomous Driving
Representation Learning [38.6654451726187]
MIM4Dはデュアルマスク画像モデリング(MIM)に基づく新しい事前学習パラダイムである
連続的なシーンフローを用いて擬似3D機能を構築し、2次元平面上に投影して監督する。
自動運転における視覚的表現学習のためのnuScenesデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-13T17:58:00Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。