論文の概要: Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
- arxiv url: http://arxiv.org/abs/2407.13759v2
- Date: Thu, 25 Jul 2024 17:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 18:18:09.034923
- Title: Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion
- Title(参考訳): 街路景観:自己回帰ビデオ拡散を用いた大規模一貫したストリートビュー生成
- Authors: Boyang Deng, Richard Tucker, Zhengqi Li, Leonidas Guibas, Noah Snavely, Gordon Wetzstein,
- Abstract要約: そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。
我々の手法は、視覚的品質と一貫性を維持しつつ、複数の都市ブロックにまたがる、はるかに長い範囲のカメラ軌道にスケールすることができる。
- 参考スコア(独自算出の注目度): 61.929653153389964
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a method for generating Streetscapes-long sequences of views through an on-the-fly synthesized city-scale scene. Our generation is conditioned by language input (e.g., city name, weather), as well as an underlying map/layout hosting the desired trajectory. Compared to recent models for video generation or 3D view synthesis, our method can scale to much longer-range camera trajectories, spanning several city blocks, while maintaining visual quality and consistency. To achieve this goal, we build on recent work on video diffusion, used within an autoregressive framework that can easily scale to long sequences. In particular, we introduce a new temporal imputation method that prevents our autoregressive approach from drifting from the distribution of realistic city imagery. We train our Streetscapes system on a compelling source of data-posed imagery from Google Street View, along with contextual map data-which allows users to generate city views conditioned on any desired city layout, with controllable camera poses. Please see more results at our project page at https://boyangdeng.com/streetscapes.
- Abstract(参考訳): そこで本研究では,街並みを連続的に合成した街並みの景観を再現する手法を提案する。
私たちの世代は、言語入力(例えば、都市名、天気)と、所望の軌跡をホストするマップ/レイアウトによって条件付けられています。
近年の映像生成モデルや3Dビュー合成モデルと比較して,映像品質と一貫性を維持しつつ,複数の都市ブロックにまたがるより長い範囲のカメラトラジェクトリにスケールすることができる。
この目的を達成するために、我々は、ビデオ拡散に関する最近の研究に基づいて、長いシーケンスに容易にスケールできる自動回帰フレームワークを用いて構築した。
特に,現実的な都市イメージの分布から自己回帰的アプローチが漂流することを防ぐ新しい時間的計算手法を提案する。
われわれのストリートスケープシステムは、Googleストリートビューの魅力的な画像ソースとコンテキストマップデータに基づいて訓練されており、ユーザーは任意の都市レイアウトで設定された都市ビューを、コントロール可能なカメラのポーズで生成することができる。
詳細はプロジェクトのページhttps://boyangdeng.com/streetscapes.comで確認してください。
関連論文リスト
- DreamForge: Motion-Aware Autoregressive Video Generation for Multi-View Driving Scenes [15.506076058742744]
本研究では,DreamForgeを提案する。DreamForgeは3次元制御可能な長期生成に適した,高度な拡散型自己回帰ビデオ生成モデルである。
レーンと前景の生成を向上するために、視点誘導を導入し、オブジェクト指向位置符号化を統合する。
また,映像中の動きの手がかりや外観の変化を捉えた時間的注意も提案する。
論文 参考訳(メタデータ) (2024-09-06T03:09:58Z) - Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion [77.34078223594686]
本稿では,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
2つの都市規模データセットを用いた実験により,衛星画像から写真リアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。
論文 参考訳(メタデータ) (2024-01-19T16:15:37Z) - ProSGNeRF: Progressive Dynamic Neural Scene Graph with Frequency
Modulated Auto-Encoder in Urban Scenes [16.037300340326368]
暗黙の神経表現は、大規模で複雑なシーンのビュー合成において有望な結果を示している。
既存のアプローチでは、素早く動くオブジェクトをキャプチャできないか、カメラのエゴモーションなしでシーングラフを構築する必要がある。
本研究では,大規模都市景観と高速移動車両の視点合成問題を共同で解決することを目的とする。
論文 参考訳(メタデータ) (2023-12-14T16:11:42Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - Urban Radiance Fields [77.43604458481637]
本研究では,都市屋外環境における世界地図作成によく利用されるスキャニングプラットフォームによって収集されたデータから3次元再構成と新しいビュー合成を行う。
提案手法は、制御された環境下での小さなシーンのための現実的な新しい画像の合成を実証したニューラルラジアンス場を拡張している。
これら3つのエクステンションはそれぞれ、ストリートビューデータの実験において、大幅なパフォーマンス改善を提供する。
論文 参考訳(メタデータ) (2021-11-29T15:58:16Z) - Infinite Nature: Perpetual View Generation of Natural Scenes from a
Single Image [73.56631858393148]
本研究では,1枚の画像から任意に長いカメラの軌跡に対応する新規ビューの長期生成という,永続的なビュー生成の問題について紹介する。
我々は、幾何合成と画像合成の両方を反復レンダリング、洗練、反復フレームワークで統合するハイブリッドアプローチを採用する。
提案手法は,手動のアノテーションを使わずに,一眼レフビデオシーケンスの集合から訓練することができる。
論文 参考訳(メタデータ) (2020-12-17T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。