論文の概要: DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.12131v2
- Date: Sat, 18 Mar 2023 16:07:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 01:48:01.245937
- Title: DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models
- Title(参考訳): DiffDreamer: 条件付き拡散モデルによる一貫した教師なし単視点シーン外挿に向けて
- Authors: Shengqu Cai, Eric Ryan Chan, Songyou Peng, Mohamad Shahbazi, Anton
Obukhov, Luc Van Gool and Gordon Wetzstein
- Abstract要約: DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
- 参考スコア(独自算出の注目度): 91.94566873400277
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scene extrapolation -- the idea of generating novel views by flying into a
given image -- is a promising, yet challenging task. For each predicted frame,
a joint inpainting and 3D refinement problem has to be solved, which is ill
posed and includes a high level of ambiguity. Moreover, training data for
long-range scenes is difficult to obtain and usually lacks sufficient views to
infer accurate camera poses. We introduce DiffDreamer, an unsupervised
framework capable of synthesizing novel views depicting a long camera
trajectory while training solely on internet-collected images of nature scenes.
Utilizing the stochastic nature of the guided denoising steps, we train the
diffusion models to refine projected RGBD images but condition the denoising
steps on multiple past and future frames for inference. We demonstrate that
image-conditioned diffusion models can effectively perform long-range scene
extrapolation while preserving consistency significantly better than prior
GAN-based methods. DiffDreamer is a powerful and efficient solution for scene
extrapolation, producing impressive results despite limited supervision.
Project page: https://primecai.github.io/diffdreamer.
- Abstract(参考訳): scene extrapolation -- 与えられた画像に飛ぶことで新しいビューを生成するというアイデアは、有望だが挑戦的なタスクである。
予測された各フレームについて、不適切なポーズと高い曖昧度を含むジョイント・インペインティングと3dリファインメントの問題を解決する必要がある。
さらに、長距離シーンのトレーニングデータは入手が困難であり、通常は正確なカメラポーズを推測するのに十分なビューが欠けている。
我々は,インターネットで収集された自然シーンの画像を訓練しながら,長眼カメラの軌跡を描いた新たなビューを合成することのできる教師なしフレームワークであるdiffdreamerを紹介する。
導波路の確率的性質を利用して拡散モデルを訓練し、投影されたrgbd画像の精巧化を行うが、複数の過去および将来のフレームの発振ステップを条件として推論を行う。
画像条件付き拡散モデルでは,GAN法よりも一貫性を保ちながら,長距離シーン外挿を効果的に行うことができることを示す。
DiffDreamerは、シーン外挿のための強力で効率的なソリューションであり、監督が限られているにもかかわらず素晴らしい結果をもたらす。
プロジェクトページ: https://primecai.github.io/diffdreamer。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - SGD: Street View Synthesis with Gaussian Splatting and Diffusion Prior [53.52396082006044]
現在の手法では、トレーニングの観点から大きく逸脱する観点で、レンダリングの品質を維持するのに苦労しています。
この問題は、移動中の車両の固定カメラが捉えた、まばらなトレーニングビューに起因している。
そこで本研究では,拡散モデルを用いて3DGSのキャパシティを向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T09:20:29Z) - DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。
一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。
我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文 参考訳(メタデータ) (2023-12-20T13:31:11Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - DiffuVST: Narrating Fictional Scenes with Global-History-Guided
Denoising Models [6.668241588219693]
ビジュアルなストーリーテリングは、現実のイメージを超えてますます求められている。
一般的に自己回帰デコーダを使用する現在の技術は、推論速度が低く、合成シーンには適していない。
本稿では,一連の視覚的記述を単一条件記述プロセスとしてモデル化する拡散型システムDiffuVSTを提案する。
論文 参考訳(メタデータ) (2023-12-12T08:40:38Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Diffusion-based Generation, Optimization, and Planning in 3D Scenes [89.63179422011254]
本稿では,3次元シーン理解のための条件付き生成モデルであるSceneDiffuserを紹介する。
SceneDiffuserは本質的にシーン認識、物理ベース、ゴール指向である。
従来のモデルに比べて大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-01-15T03:43:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。