Fugu-MT 論文翻訳(概要): DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

論文の概要: DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

arxiv url: http://arxiv.org/abs/2310.07771v1
Date: Wed, 11 Oct 2023 18:00:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-14 14:34:09.467919
Title: DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model
Title（参考訳）: drivingdiffusion:潜在拡散モデルを用いたレイアウト誘導型マルチビュー駆動シーンビデオ生成
Authors: Xiaofan Li, Yifu Zhang and Xiaoqing Ye
Abstract要約: 3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
参考スコア（独自算出の注目度）: 19.288610627281102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the increasing popularity of autonomous driving based on the powerful and unified bird's-eye-view (BEV) representation, a demand for high-quality and large-scale multi-view video data with accurate annotation is urgently required. However, such large-scale multi-view data is hard to obtain due to expensive collection and annotation costs. To alleviate the problem, we propose a spatial-temporal consistent diffusion framework DrivingDiffusion, to generate realistic multi-view videos controlled by 3D layout. There are three challenges when synthesizing multi-view videos given a 3D layout: How to keep 1) cross-view consistency and 2) cross-frame consistency? 3) How to guarantee the quality of the generated instances? Our DrivingDiffusion solves the problem by cascading the multi-view single-frame image generation step, the single-view video generation step shared by multiple cameras, and post-processing that can handle long video generation. In the multi-view model, the consistency of multi-view images is ensured by information exchange between adjacent cameras. In the temporal model, we mainly query the information that needs attention in subsequent frame generation from the multi-view images of the first frame. We also introduce the local prompt to effectively improve the quality of generated instances. In post-processing, we further enhance the cross-view consistency of subsequent frames and extend the video length by employing temporal sliding window algorithm. Without any extra cost, our model can generate large-scale realistic multi-camera driving videos in complex urban scenes, fueling the downstream driving tasks. The code will be made publicly available.
Abstract（参考訳）: 強力で統一された鳥眼ビュー(BEV)表現に基づく自律運転の普及に伴い、高精度なアノテーションを備えた高品質で大規模な多視点ビデオデータへの需要が緊急に要求される。しかし,このような大規模マルチビューデータは,収集コストやアノテーションコストがかかるため入手が困難である。この問題を軽減するために,3次元レイアウトで制御されるリアルなマルチビュー映像を生成するための空間的時間的一貫した拡散フレームワーク DrivingDiffusion を提案する。マルチビュービデオを3Dレイアウトで合成するには3つの課題がある。 1)クロスビュー整合性と 2) クロスフレームの一貫性? 3) 生成されたインスタンスの品質を保証するには? drivingdiffusionは、マルチビュー・シングルフレーム画像生成ステップ、複数のカメラで共有されるシングルビュービデオ生成ステップ、長いビデオ生成を処理できるポストプロセッシングをカスケードすることで、問題を解決します。マルチビューモデルでは、隣接カメラ間の情報交換により、マルチビュー画像の一貫性が確保される。時間モデルでは,第1のフレームのマルチビュー画像から,後続のフレーム生成に注意を要する情報を主に問い合わせる。また,生成されたインスタンスの品質を効果的に向上するために,ローカルプロンプトを導入する。ポストプロセッシングでは,後続フレームのクロスビュー一貫性をさらに高め,時間的スライディングウインドウアルゴリズムを用いて映像長を延ばす。これ以上の費用がかからなければ、われわれのモデルは複雑な都会のシーンで大規模なリアルなマルチカメラ運転ビデオを生成でき、下流の運転タスクを加速できる。コードは公開される予定だ。

関連論文リスト

Auto-Regressively Generating Multi-View Consistent Images [10.513203377236744]
任意のプロンプトから一貫したマルチビュー画像を生成するためのマルチビュー自動回帰(textbfMV-AR)手法を提案する。広範に分離されたビューを生成する場合、MV-ARは以前のビューを全て利用して効果的な参照情報を抽出することができる。一貫して一貫したマルチビュー画像を生成するMV-ARの性能と汎用性を示す実験を行った。
論文参考訳（メタデータ） (2025-06-23T11:28:37Z)
DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-04-28T09:20:50Z)
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [51.328567400947435]
単一の入力ビデオから同期化されたマルチビュービデオを生成するための統合フレームワークであるReangle-A-Videoを紹介する。提案手法は,多視点映像生成タスクをビデオ間翻訳として再設計し,公開画像とビデオ拡散先行情報を活用する。
論文参考訳（メタデータ） (2025-03-12T08:26:15Z)
Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文参考訳（メタデータ） (2024-10-01T17:29:43Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data [80.92268916571712]
重要なボトルネックは、詳細なキャプションを持つ高品質な3Dオブジェクトの不足である。本稿では,任意の量のマルチビュー画像を自動的に生成する新しいフレームワークBootstrap3Dを提案する。我々は高画質合成多視点画像100万枚を高密度記述キャプションで生成した。
論文参考訳（メタデータ） (2024-05-31T17:59:56Z)
Era3D: High-Resolution Multiview Diffusion using Efficient Row-wise Attention [87.02613021058484]
単一視点画像から高解像度のマルチビュー画像を生成する新しい多視点拡散法であるEra3Dを紹介する。 Era3Dは、最大512*512の解像度で高品質なマルチビュー画像を生成し、複雑さを12倍に削減する。
論文参考訳（メタデータ） (2024-05-19T17:13:16Z)
VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文参考訳（メタデータ） (2024-03-18T17:48:15Z)
Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文参考訳（メタデータ） (2024-03-13T18:46:33Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文参考訳（メタデータ） (2023-09-07T02:28:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。