論文の概要: SceneCrafter: Controllable Multi-View Driving Scene Editing
- arxiv url: http://arxiv.org/abs/2506.19488v1
- Date: Tue, 24 Jun 2025 10:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.591564
- Title: SceneCrafter: Controllable Multi-View Driving Scene Editing
- Title(参考訳): SceneCrafter: コントロール可能なマルチビュー駆動シーン編集
- Authors: Zehao Zhu, Yuliang Zou, Chiyu Max Jiang, Bo Sun, Vincent Casser, Xiukun Huang, Jiahao Wang, Zhenpei Yang, Ruiqi Gao, Leonidas Guibas, Mingxing Tan, Dragomir Anguelov,
- Abstract要約: SceneCrafterは、複数のカメラから撮影した運転シーンをリアルな3D一貫性で操作するための汎用的なエディタである。
SceneCrafterは、既存のベースラインと比較して最先端のリアリズム、制御性、3D一貫性、シーン編集品質を実現している。
- 参考スコア(独自算出の注目度): 44.91248700043744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Simulation is crucial for developing and evaluating autonomous vehicle (AV) systems. Recent literature builds on a new generation of generative models to synthesize highly realistic images for full-stack simulation. However, purely synthetically generated scenes are not grounded in reality and have difficulty in inspiring confidence in the relevance of its outcomes. Editing models, on the other hand, leverage source scenes from real driving logs, and enable the simulation of different traffic layouts, behaviors, and operating conditions such as weather and time of day. While image editing is an established topic in computer vision, it presents fresh sets of challenges in driving simulation: (1) the need for cross-camera 3D consistency, (2) learning ``empty street" priors from driving data with foreground occlusions, and (3) obtaining paired image tuples of varied editing conditions while preserving consistent layout and geometry. To address these challenges, we propose SceneCrafter, a versatile editor for realistic 3D-consistent manipulation of driving scenes captured from multiple cameras. We build on recent advancements in multi-view diffusion models, using a fully controllable framework that scales seamlessly to multi-modality conditions like weather, time of day, agent boxes and high-definition maps. To generate paired data for supervising the editing model, we propose a novel framework on top of Prompt-to-Prompt to generate geometrically consistent synthetic paired data with global edits. We also introduce an alpha-blending framework to synthesize data with local edits, leveraging a model trained on empty street priors through novel masked training and multi-view repaint paradigm. SceneCrafter demonstrates powerful editing capabilities and achieves state-of-the-art realism, controllability, 3D consistency, and scene editing quality compared to existing baselines.
- Abstract(参考訳): 自動運転車(AV)システムの開発と評価にはシミュレーションが不可欠である。
近年の文献は、フルスタックシミュレーションのために、高度にリアルな画像を合成する新しい世代の生成モデルの上に構築されている。
しかし、純粋に合成された場面は現実には根付いておらず、結果の関連性に自信を抱くことは困難である。
一方、モデル編集では、実際の運転ログからのソースシーンを活用し、異なるトラフィックレイアウト、振る舞い、天候や日時といった運用条件のシミュレーションを可能にする。
画像編集はコンピュータビジョンにおいて確立された課題であるが,(1)クロスカメラ3D整合性の必要性,(2)前景オクルージョンによるデータの駆動から「空の街」を学ぶこと,(3)一貫したレイアウトと幾何を維持しつつ,編集条件の異なるペア画像タプルを取得すること,といった新たな課題が提示されている。
これらの課題に対処するために,複数のカメラから撮影した実写シーンをリアルな3D一貫性で操作するための汎用的なエディタであるSceneCrafterを提案する。
我々は、気象、日時、エージェントボックス、高精細マップなどのマルチモーダルな条件にシームレスにスケールする完全に制御可能なフレームワークを用いて、近年の多視点拡散モデルの進歩の上に構築する。
編集モデルを監督するペアデータを生成するために,Prompt-to-Prompt上に新しいフレームワークを提案し,幾何学的に一貫した合成ペアデータとグローバル編集を生成する。
我々はまた、新しいマスク付きトレーニングとマルチビュー・リペイント・パラダイムを通じて、空の街路で訓練されたモデルを利用して、局所的な編集でデータを合成するアルファブレンディングフレームワークも導入した。
SceneCrafterは強力な編集機能を示し、既存のベースラインと比較して最先端のリアリズム、制御性、3D一貫性、シーン編集品質を実現している。
関連論文リスト
- StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models [59.55232046525733]
我々は,LDARポイントクラウドレンダリングをピクセルレベルの条件として利用する,制御可能なビデオ拡散モデルであるStreetCrafterを紹介する。
さらに、画素レベルのLiDAR条件を利用することで、ターゲットシーンに対して正確なピクセルレベルの編集を行うことができる。
我々のモデルは視点変化を柔軟に制御し、レンダリング領域を満たすためのビューを拡大する。
論文 参考訳(メタデータ) (2024-12-17T18:58:55Z) - Stag-1: Towards Realistic 4D Driving Simulation with Video Generation Model [83.31688383891871]
本稿では,現実世界のシーンを再現するために,DrivinG(Stag-1)モデルのための空間-テンポラル・シミュレートを提案する。
Stag-1は、自動運転車のサラウンドビューデータを使用して、連続した4Dポイントのクラウドシーンを構築する。
空間的時間的関係を分離し、コヒーレントな運転ビデオを生成する。
論文 参考訳(メタデータ) (2024-12-06T18:59:56Z) - Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents [49.11254369459406]
ChatSimは、編集可能な3Dドライビングシーンシミュレーションを、外部デジタル資産を持つ自然言語コマンドで実現した最初のシステムである。
ChatSimは、フォトリアリスティックな結果を生成するために、新しいマルチカメラニューラルフィールド法を採用している。
論文 参考訳(メタデータ) (2024-02-08T15:26:28Z) - UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields [22.180286908121946]
粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
論文 参考訳(メタデータ) (2023-03-24T17:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。