論文の概要: AnyScene: Towards Highly Controllable Driving Scene Generation at Anywhere and Beyond
- arxiv url: http://arxiv.org/abs/2605.26113v1
- Date: Mon, 25 May 2026 17:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.661186
- Title: AnyScene: Towards Highly Controllable Driving Scene Generation at Anywhere and Beyond
- Title(参考訳): AnyScene: あらゆる場所で高いコントロール可能な運転シーン生成を目指す
- Authors: Haiming Zhang, Junfei Zhou, Feng Jiang, Jingzhong Li, Zhenglong Guo, Penglin Dai, Jifeng Dai, Yan Xie, Benjin Zhu,
- Abstract要約: AnySceneは、シーン生成を駆動するための統一された占有中心のフレームワークである。
空間時間占有拡散変換器を用いて、BEVレイアウトからセマンティック占有シーケンスを生成する。
生成した占有に基づいて、Geometry-Grounded View Expansionモジュールは、占有を標準空間表現として扱う。
- 参考スコア(独自算出の注目度): 34.2135689224471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity and controllable synthetic data is critical for advancing end-to-end autonomous driving, particularly for addressing the long tail of rare safety-critical scenarios. Existing occupancy-guided methods typically rely on shallow conditioning mechanisms and reference-frame-dependent video synthesis, which limits fine-grained controllability from arbitrary BEV layouts and restricts their applicability for scalable simulation. In this paper, we propose AnyScene, a unified occupancy-centric framework for driving scene generation. AnyScene generates semantic occupancy sequences from BEV layouts through a Spatial-Temporal Occupancy Diffusion Transformer that jointly tokenizes BEV and occupancy features in an autoregressive manner. This design enables precise controllability from cross-dataset and user-defined BEV inputs while naturally supporting long-horizon generation. Building upon the generated occupancy, a Geometry-Grounded View Expansion module treats occupancy as the canonical spatial representation and synthesizes temporally consistent multi-view driving videos in a reference-free and autoregressive fashion, supporting flexible camera configurations at inference time. Extensive experiments demonstrate that AnyScene achieves state-of-the-art performance in both occupancy and video generation. It exhibits strong generalization to unseen and customized layouts, and provides measurable benefits for downstream tasks such as sparse-view 3D reconstruction.
- Abstract(参考訳): 高忠実で制御可能な合成データを生成することは、特に稀な安全クリティカルなシナリオの長い尾に対処するために、エンドツーエンドの自動運転を進めるために重要である。
既存の占有誘導方式は通常、浅い条件付け機構と参照フレームに依存したビデオ合成に依存し、任意のBEVレイアウトからきめ細かい制御性を制限し、スケーラブルなシミュレーションへの適用性を制限する。
本稿では,AnySceneを提案する。AnySceneは,シーン生成を駆動するための統合された占有中心のフレームワークである。
AnySceneは、BEVと占有機能を共同で自己回帰的にトークン化する空間時間占有拡散変換器を介して、BEVレイアウトからセマンティック占有シーケンスを生成する。
この設計により、長い水平生成を自然にサポートしながら、データセットとユーザ定義のBEV入力からの正確な制御が可能となる。
生成した占有に基づいて、Geometry-Grounded View Expansionモジュールは、占有を標準空間表現として扱い、基準のない自動回帰方式で時間的に一貫した多視点駆動ビデオを合成し、推論時に柔軟なカメラ構成をサポートする。
大規模な実験により、AnySceneは、占有率と映像生成の両面で最先端のパフォーマンスを達成することが示された。
目に見えないレイアウトやカスタマイズされたレイアウトへの強力な一般化を示し、スパースビュー3D再構成のような下流タスクに測定可能な利点を提供する。
関連論文リスト
- DriveCtrl: Conditioned Sim-to-Real Driving Video Generation [16.424889754682727]
DriveCtrlは、リアルな駆動ビデオ合成のための制御可能なsim-to-realビデオ生成フレームワークである。
シミュレーション映像をリアルな実世界のデータセットの視覚スタイルに合わせたリアルな運転映像に変換するスケーラブルなデータ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2026-05-14T17:29:35Z) - FAR-Drive: Frame-AutoRegressive Video Generation in Closed-Loop Autonomous Driving [11.275815014211046]
自律運転のための学習ベースのクローズドループシミュレータの構築は、3つの大きな課題を提起する。
長期の時間的・横断的な一貫性、反復的自己条件下での自己回帰劣化の緩和、低遅延推論制約を満たす。
自動運転のためのフレームレベル自動回帰ビデオ生成フレームワークであるFAR-Driveを提案する。
論文 参考訳(メタデータ) (2026-03-16T07:40:13Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - X-Scene: Large-Scale Driving Scene Generation with High Fidelity and Flexible Controllability [49.4647778989539]
X-Sceneは大規模ドライビングシーン生成のための新しいフレームワークである。
幾何的複雑度と外観の忠実度の両方を実現し、フレキシブルな制御性を提供する。
X-Sceneは、大規模な運転シーン生成のための制御性と忠実性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-16T14:43:18Z) - UniScene: Unified Occupancy-centric Driving Scene Generation [73.22859345600192]
UniSceneは3つの重要なデータ形式(セマンティック占有率、ビデオ、LiDAR)を生成するための最初の統一フレームワークである。
UniSceneは、シーン生成の複雑なタスクを2つの階層的なステップに分解するプログレッシブな生成プロセスを採用している。
大規模な実験により、UniSceneは、占有率、ビデオ、LiDAR生成において、以前のSOTAよりも優れていたことが示されている。
論文 参考訳(メタデータ) (2024-12-06T21:41:52Z) - Seeing Beyond Views: Multi-View Driving Scene Video Generation with Holistic Attention [61.3281618482513]
高品質なマルチビュー駆動ビデオの合成を目的とした,新しいネットワークであるCogDrivingについて紹介する。
CogDriving は Diffusion Transformer アーキテクチャと holistic-4D attention module を活用し、次元間の同時結合を可能にする。
CogDrivingは、nuScenesバリデーションセットで強力なパフォーマンスを示し、FVDスコア37.8を達成し、リアルなドライビングビデオを生成する能力を強調している。
論文 参考訳(メタデータ) (2024-12-04T18:02:49Z) - DriveScape: Towards High-Resolution Controllable Multi-View Driving Video Generation [10.296670127024045]
DriveScapeは、マルチビュー、3D条件付きビデオ生成のためのエンドツーエンドフレームワークである。
我々のBi-Directional Modulated Transformer (BiMot)は3次元構造情報の正確なアライメントを保証する。
DriveScapeはビデオ生成性能に優れ、FIDスコア8.34、FVDスコア76.39でnuScenesデータセットの最先端結果を達成する。
論文 参考訳(メタデータ) (2024-09-09T09:43:17Z) - BEVWorld: A Multimodal World Simulator for Autonomous Driving via Scene-Level BEV Latents [56.33989853438012]
BEVWorldは,マルチモーダルセンサ入力を統一的でコンパクトなBird's Eye View潜在空間に変換し,全体的環境モデリングを行うフレームワークである。
提案する世界モデルは,多モードトークン化器と遅延BEVシーケンス拡散モデルという2つの主要成分から構成される。
論文 参考訳(メタデータ) (2024-07-08T07:26:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。