論文の概要: VaViM and VaVAM: Autonomous Driving through Video Generative Modeling
- arxiv url: http://arxiv.org/abs/2502.15672v1
- Date: Fri, 21 Feb 2025 18:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:10:16.028226
- Title: VaViM and VaVAM: Autonomous Driving through Video Generative Modeling
- Title(参考訳): VaViMとVaVAM:ビデオ生成モデルによる自動運転
- Authors: Florent Bartoccioni, Elias Ramzi, Victor Besnier, Shashanka Venkataramanan, Tuan-Hung Vu, Yihong Xu, Loick Chambon, Spyros Gidaris, Serkan Odabas, David Hurych, Renaud Marlet, Alexandre Boulch, Mickael Chen, Éloi Zablocki, Andrei Bursuc, Eduardo Valle, Matthieu Cord,
- Abstract要約: 本稿では,オープンソースの自動回帰ビデオモデル(VaM)とそのビデオアクションモデル(VaVAM)を紹介する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価したところ、ビデオベースの事前学習が自律運転の可能性を秘めていることがわかった。
- 参考スコア(独自算出の注目度): 88.33638585518226
- License:
- Abstract: We explore the potential of large-scale generative video models for autonomous driving, introducing an open-source auto-regressive video model (VaViM) and its companion video-action model (VaVAM) to investigate how video pre-training transfers to real-world driving. VaViM is a simple auto-regressive video model that predicts frames using spatio-temporal token sequences. We show that it captures the semantics and dynamics of driving scenes. VaVAM, the video-action model, leverages the learned representations of VaViM to generate driving trajectories through imitation learning. Together, the models form a complete perception-to-action pipeline. We evaluate our models in open- and closed-loop driving scenarios, revealing that video-based pre-training holds promise for autonomous driving. Key insights include the semantic richness of the learned representations, the benefits of scaling for video synthesis, and the complex relationship between model size, data, and safety metrics in closed-loop evaluations. We release code and model weights at https://github.com/valeoai/VideoActionModel
- Abstract(参考訳): 本稿では,自動運転のための大規模生成ビデオモデルの可能性を探り,オープンソースの自動回帰ビデオモデル(VaViM)とその協調ビデオアクションモデル(VaVAM)を導入する。
VaViMは、時空間トークンシーケンスを用いてフレームを予測する単純な自動回帰ビデオモデルである。
運転シーンのセマンティクスとダイナミックスをキャプチャする。
ビデオアクションモデルであるVaVAMは、VaViMの学習した表現を利用して、模倣学習を通じて駆動軌道を生成する。
モデルが組み合わさって、完全な知覚から行動へのパイプラインを形成する。
オープンループ運転とクローズドループ運転のシナリオでモデルを評価した結果、ビデオベースの事前学習が自律運転の可能性を秘めていることが明らかになった。
主な洞察は、学習された表現の意味的な豊かさ、ビデオ合成のためのスケーリングの利点、クローズドループ評価におけるモデルサイズ、データ、安全性メトリクスの間の複雑な関係である。
コードとモデルの重み付けはhttps://github.com/valeoai/VideoActionModelで公開しています。
関連論文リスト
- Learning Real-World Action-Video Dynamics with Heterogeneous Masked Autoregression [23.99292102237088]
本稿では,アクション・ビデオ・ダイナミックスをモデル化するためのヘテロジニアス・マスケッド・オートレグレス(HMA)を提案する。
ポストトレーニング後、このモデルは、ポリシーを評価し、合成データを生成するためのビデオシミュレータとして使用できる。
論文 参考訳(メタデータ) (2025-02-06T18:38:26Z) - An Empirical Study of Autoregressive Pre-training from Videos [67.15356613065542]
ビデオをビジュアルトークンとして扱い、トランスフォーマーモデルをトレーニングして、将来的なトークンを自動回帰的に予測します。
われわれのモデルは、1兆以上の視覚トークンからなる多様なビデオと画像のデータセットで事前訓練されている。
以上の結果から, 自己回帰的事前学習は, 最小限の帰納バイアスにもかかわらず, 競争性能に寄与することが示唆された。
論文 参考訳(メタデータ) (2025-01-09T18:59:58Z) - DriveGenVLM: Real-world Video Generation for Vision Language Model based Autonomous Driving [12.004604110512421]
視覚言語モデル(VLM)は、自律運転に影響を与える大きな可能性を持つ革命的ツールとして出現している。
本稿では,駆動ビデオを生成するためのDriveGenVLMフレームワークを提案し,それらを理解するためにVLMを使用する。
論文 参考訳(メタデータ) (2024-08-29T15:52:56Z) - WildVidFit: Video Virtual Try-On in the Wild via Image-Based Controlled Diffusion Models [132.77237314239025]
ビデオ仮想トライオンは、衣料品のアイデンティティを維持し、ソースビデオにおける人のポーズと身体の形に適応する現実的なシーケンスを生成することを目的としている。
従来の画像ベースの手法は、ワープとブレンディングに依存しており、複雑な人間の動きや閉塞に苦しむ。
衣料品の説明や人間の動きを条件とした映像生成のプロセスとして,映像試行を再認識する。
私たちのソリューションであるWildVidFitは、画像ベースで制御された拡散モデルを用いて、一段階の合理化を図っている。
論文 参考訳(メタデータ) (2024-07-15T11:21:03Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Model-Based Imitation Learning for Urban Driving [26.782783239210087]
MILE: 世界のモデルと自律運転のポリシーを共同で学習するためのモデルに基づくImitation LEarningアプローチを提案する。
本モデルでは, 都市運転データのオフラインコーパスを用いて, 環境とのオンラインインタラクションを伴わない訓練を行った。
我々のアプローチは、都市運転環境における静的シーン、ダイナミックシーン、エゴビヘイビアをモデル化する最初のカメラのみの手法である。
論文 参考訳(メタデータ) (2022-10-14T11:59:46Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - VIOLET : End-to-End Video-Language Transformers with Masked Visual-token
Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。
我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。