論文の概要: MultiDiff: Consistent Novel View Synthesis from a Single Image
- arxiv url: http://arxiv.org/abs/2406.18524v1
- Date: Wed, 26 Jun 2024 17:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 12:40:34.585478
- Title: MultiDiff: Consistent Novel View Synthesis from a Single Image
- Title(参考訳): MultiDiff: 単一画像からの一貫性のある新しいビュー合成
- Authors: Norman Müller, Katja Schwarz, Barbara Roessle, Lorenzo Porzi, Samuel Rota Bulò, Matthias Nießner, Peter Kontschieder,
- Abstract要約: MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 60.04215655745264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MultiDiff, a novel approach for consistent novel view synthesis of scenes from a single RGB image. The task of synthesizing novel views from a single reference image is highly ill-posed by nature, as there exist multiple, plausible explanations for unobserved areas. To address this issue, we incorporate strong priors in form of monocular depth predictors and video-diffusion models. Monocular depth enables us to condition our model on warped reference images for the target views, increasing geometric stability. The video-diffusion prior provides a strong proxy for 3D scenes, allowing the model to learn continuous and pixel-accurate correspondences across generated images. In contrast to approaches relying on autoregressive image generation that are prone to drifts and error accumulation, MultiDiff jointly synthesizes a sequence of frames yielding high-quality and multi-view consistent results -- even for long-term scene generation with large camera movements, while reducing inference time by an order of magnitude. For additional consistency and image quality improvements, we introduce a novel, structured noise distribution. Our experimental results demonstrate that MultiDiff outperforms state-of-the-art methods on the challenging, real-world datasets RealEstate10K and ScanNet. Finally, our model naturally supports multi-view consistent editing without the need for further tuning.
- Abstract(参考訳): 一つのRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチであるMultiDiffを紹介する。
単一の参照画像から新規なビューを合成する作業は、観測されていない領域について、複数のもっともらしい説明が存在するため、自然によって非常に不適切である。
この問題に対処するために、単眼深度予測器とビデオ拡散モデルという形で、強い先行を組み込んだ。
単分子深度により、ターゲットビューの歪んだ参照画像にモデルを条件付けることができ、幾何学的安定性が向上する。
ビデオ拡散前は、3Dシーンの強力なプロキシを提供しており、モデルが生成した画像間の連続的および画素精度の対応を学習することができる。
ドリフトやエラーの蓄積が難しい自動回帰画像生成に依存するアプローチとは対照的に、MultiDiffは高品質で複数ビューの一貫性のある結果をもたらす一連のフレームを共同で合成する。
さらなる一貫性と画質向上のために、我々は新しい構造付きノイズ分布を導入する。
実験の結果,MultiDiffはリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることがわかった。
最後に、我々のモデルは、さらなるチューニングを必要とせずに、自然にマルチビュー一貫した編集をサポートする。
関連論文リスト
- Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Consistent123: Improve Consistency for One Image to 3D Object Synthesis [74.1094516222327]
大規模な画像拡散モデルは、高品質で優れたゼロショット機能を備えた新規なビュー合成を可能にする。
これらのモデルは、ビュー一貫性の保証がなく、3D再構成や画像から3D生成といった下流タスクのパフォーマンスが制限される。
本稿では,新しい視点を同時に合成するConsistent123を提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:28Z) - SAMPLING: Scene-adaptive Hierarchical Multiplane Images Representation
for Novel View Synthesis from a Single Image [60.52991173059486]
単一画像からの新規ビュー合成のためのシーン適応型階層型多面体画像表現であるSAMPlingを紹介する。
提案手法は,KITTIデータセット上の単一画像を用いて,大規模非有界屋外シーンにおいてかなりの性能向上を示す。
論文 参考訳(メタデータ) (2023-09-12T15:33:09Z) - Collaborative Score Distillation for Consistent Visual Synthesis [70.29294250371312]
コラボレーティブスコア蒸留 (CSD) は, 定常変分勾配Descence (SVGD) に基づく。
本研究では,パノラマ画像,ビデオ,3Dシーンの視覚的編集を含む,様々な作業におけるCDDの有効性を示す。
本研究は,サンプル間の整合性を向上し,テキスト・画像拡散モデルの適用性を高めるための汎用手法として,CDDの能力について述べる。
論文 参考訳(メタデータ) (2023-07-04T17:31:50Z) - Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文 参考訳(メタデータ) (2023-04-21T02:01:02Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。