論文の概要: DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model
- arxiv url: http://arxiv.org/abs/2310.07771v1
- Date: Wed, 11 Oct 2023 18:00:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 14:34:09.467919
- Title: DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model
- Title(参考訳): drivingdiffusion:潜在拡散モデルを用いたレイアウト誘導型マルチビュー駆動シーンビデオ生成
- Authors: Xiaofan Li, Yifu Zhang and Xiaoqing Ye
- Abstract要約: 3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
- 参考スコア(独自算出の注目度): 19.288610627281102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing popularity of autonomous driving based on the powerful
and unified bird's-eye-view (BEV) representation, a demand for high-quality and
large-scale multi-view video data with accurate annotation is urgently
required. However, such large-scale multi-view data is hard to obtain due to
expensive collection and annotation costs. To alleviate the problem, we propose
a spatial-temporal consistent diffusion framework DrivingDiffusion, to generate
realistic multi-view videos controlled by 3D layout. There are three challenges
when synthesizing multi-view videos given a 3D layout: How to keep 1)
cross-view consistency and 2) cross-frame consistency? 3) How to guarantee the
quality of the generated instances? Our DrivingDiffusion solves the problem by
cascading the multi-view single-frame image generation step, the single-view
video generation step shared by multiple cameras, and post-processing that can
handle long video generation. In the multi-view model, the consistency of
multi-view images is ensured by information exchange between adjacent cameras.
In the temporal model, we mainly query the information that needs attention in
subsequent frame generation from the multi-view images of the first frame. We
also introduce the local prompt to effectively improve the quality of generated
instances. In post-processing, we further enhance the cross-view consistency of
subsequent frames and extend the video length by employing temporal sliding
window algorithm. Without any extra cost, our model can generate large-scale
realistic multi-camera driving videos in complex urban scenes, fueling the
downstream driving tasks. The code will be made publicly available.
- Abstract(参考訳): 強力で統一された鳥眼ビュー(BEV)表現に基づく自律運転の普及に伴い、高精度なアノテーションを備えた高品質で大規模な多視点ビデオデータへの需要が緊急に要求される。
しかし,このような大規模マルチビューデータは,収集コストやアノテーションコストがかかるため入手が困難である。
この問題を軽減するために,3次元レイアウトで制御されるリアルなマルチビュー映像を生成するための空間的時間的一貫した拡散フレームワーク DrivingDiffusion を提案する。
マルチビュービデオを3Dレイアウトで合成するには3つの課題がある。
1)クロスビュー整合性と
2) クロスフレームの一貫性?
3) 生成されたインスタンスの品質を保証するには?
drivingdiffusionは、マルチビュー・シングルフレーム画像生成ステップ、複数のカメラで共有されるシングルビュービデオ生成ステップ、長いビデオ生成を処理できるポストプロセッシングをカスケードすることで、問題を解決します。
マルチビューモデルでは、隣接カメラ間の情報交換により、マルチビュー画像の一貫性が確保される。
時間モデルでは,第1のフレームのマルチビュー画像から,後続のフレーム生成に注意を要する情報を主に問い合わせる。
また,生成されたインスタンスの品質を効果的に向上するために,ローカルプロンプトを導入する。
ポストプロセッシングでは,後続フレームのクロスビュー一貫性をさらに高め,時間的スライディングウインドウアルゴリズムを用いて映像長を延ばす。
これ以上の費用がかからなければ、われわれのモデルは複雑な都会のシーンで大規模なリアルなマルチカメラ運転ビデオを生成でき、下流の運転タスクを加速できる。
コードは公開される予定だ。
関連論文リスト
- Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - Hybrid Video Diffusion Models with 2D Triplane and 3D Wavelet
Representation [37.30927036754384]
複雑な依存関係をより効率的にキャプチャできるHVtemporalDMというハイブリッドビデオオートエンコーダを提案する。
HVDMは、ビデオの歪んだ表現を抽出するハイブリッドビデオオートエンコーダによって訓練される。
当社のハイブリッドオートエンコーダは、生成されたビデオに詳細な構造と詳細を付加した、より包括的なビデオラテントを提供します。
論文 参考訳(メタデータ) (2024-02-21T11:46:16Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - EpiDiff: Enhancing Multi-View Synthesis via Localized
Epipolar-Constrained Diffusion [62.09503304660607]
EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
論文 参考訳(メタデータ) (2023-12-11T05:20:52Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view
Image [62.751189946480096]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - VideoFactory: Swap Attention in Spatiotemporal Diffusions for
Text-to-Video Generation [57.98975319014234]
VideoFactoryはハイデフィニション(1376x768)、ワイドスクリーン(16:9)の動画を透かしなしで制作できる。
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-18T11:06:15Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Learning to Deblur and Rotate Motion-Blurred Faces [43.673660541417995]
ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
論文 参考訳(メタデータ) (2021-12-14T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。