論文の概要: GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.20523v1
- Date: Wed, 26 Mar 2025 13:11:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:21:23.586725
- Title: GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving
- Title(参考訳): GAIA-2:自律運転のための制御可能な多視点生成世界モデル
- Authors: Lloyd Russell, Anthony Hu, Lorenzo Bertoni, George Fedoseev, Jamie Shotton, Elahe Arani, Gianluca Corrado,
- Abstract要約: GAIA-2は、単一の生成フレームワーク内の機能を統一する潜在拡散世界モデルである。
GAIA-2は、リッチな構造化された入力セットに条件付けされた制御可能なビデオ生成をサポートする。
地理的に多様な運転環境にまたがって高解像度で時間的に一貫したマルチカメラビデオを生成する。
- 参考スコア(独自算出の注目度): 16.101356013671833
- License:
- Abstract: Generative models offer a scalable and flexible paradigm for simulating complex environments, yet current approaches fall short in addressing the domain-specific requirements of autonomous driving - such as multi-agent interactions, fine-grained control, and multi-camera consistency. We introduce GAIA-2, Generative AI for Autonomy, a latent diffusion world model that unifies these capabilities within a single generative framework. GAIA-2 supports controllable video generation conditioned on a rich set of structured inputs: ego-vehicle dynamics, agent configurations, environmental factors, and road semantics. It generates high-resolution, spatiotemporally consistent multi-camera videos across geographically diverse driving environments (UK, US, Germany). The model integrates both structured conditioning and external latent embeddings (e.g., from a proprietary driving model) to facilitate flexible and semantically grounded scene synthesis. Through this integration, GAIA-2 enables scalable simulation of both common and rare driving scenarios, advancing the use of generative world models as a core tool in the development of autonomous systems. Videos are available at https://wayve.ai/thinking/gaia-2.
- Abstract(参考訳): 生成モデルは複雑な環境をシミュレートするためのスケーラブルで柔軟なパラダイムを提供するが、現在のアプローチでは、マルチエージェントインタラクション、きめ細かい制御、マルチカメラ一貫性といった、自律運転のドメイン固有の要件に対処できない。
本稿では,GAIA-2,Generative AI for Autonomyを紹介した。
GAIA-2は、Ego-vehicle dynamics、エージェント構成、環境要因、ロードセマンティクスといった、豊富な構造化された入力を条件に、制御可能なビデオ生成をサポートする。
地理的に多様な運転環境(イギリス、アメリカ、ドイツ)で高解像度で時空間的に一貫したマルチカメラビデオを生成する。
このモデルは、構造化条件付けと外部遅延埋め込み(例えば、プロプライエタリな駆動モデルから)を統合し、フレキシブルでセマンティックなシーン合成を容易にする。
この統合を通じてGAIA-2は、一般的な運転シナリオと稀な運転シナリオのスケーラブルなシミュレーションを可能にし、自律システム開発における中核となるツールとして生成世界モデルの利用を推進した。
ビデオはhttps://wayve.ai/thinking/gaia-2.comで公開されている。
関連論文リスト
- A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Exploring the Interplay Between Video Generation and World Models in Autonomous Driving: A Survey [61.39993881402787]
世界モデルとビデオ生成は、自動運転の領域において重要な技術である。
本稿では,この2つの技術の関係について検討する。
映像生成モデルと世界モデルとの相互作用を分析することにより,重要な課題と今後の研究方向性を明らかにする。
論文 参考訳(メタデータ) (2024-11-05T08:58:35Z) - GenAD: Generalized Predictive Model for Autonomous Driving [75.39517472462089]
本稿では,自動運転分野における最初の大規模ビデオ予測モデルを紹介する。
我々のモデルはGenADと呼ばれ、新しい時間的推論ブロックでシーンを駆動する際の挑戦的なダイナミクスを扱う。
アクション条件付き予測モデルやモーションプランナーに適応することができ、現実世界の運転アプリケーションに大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-03-14T17:58:33Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - GAIA-1: A Generative World Model for Autonomous Driving [9.578453700755318]
本稿では,現実的な運転シナリオを生成する生成的世界モデルであるGAIA-1(Generative AI for Autonomy)を紹介する。
我々のモデルからの創発的特性には、高レベルの構造やシーンダイナミクス、文脈認識、一般化、幾何学の理解などが含まれる。
論文 参考訳(メタデータ) (2023-09-29T09:20:37Z) - Generative AI-empowered Simulation for Autonomous Driving in Vehicular
Mixed Reality Metaverses [130.15554653948897]
車両混合現実(MR)メタバースでは、物理的実体と仮想実体の間の距離を克服することができる。
現実的なデータ収集と物理世界からの融合による大規模交通・運転シミュレーションは困難かつコストがかかる。
生成AIを利用して、無制限の条件付きトラフィックを合成し、シミュレーションでデータを駆動する自律運転アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-02-16T16:54:10Z) - Isolating and Leveraging Controllable and Noncontrollable Visual
Dynamics in World Models [65.97707691164558]
Iso-DreamはDream-to-Controlフレームワークを2つの側面で改善する。
まず、逆動力学を最適化することにより、世界モデルに制御可能で制御不能な情報源を学習させることを奨励する。
第2に、エージェントの挙動を世界モデルの切り離された潜在的想像力に最適化する。
論文 参考訳(メタデータ) (2022-05-27T08:07:39Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。