論文の概要: Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models
- arxiv url: http://arxiv.org/abs/2304.10700v2
- Date: Mon, 21 Aug 2023 19:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:58:55.194471
- Title: Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models
- Title(参考訳): 拡散モデルを用いた長期光度一貫性新規ビュー合成
- Authors: Jason J. Yu, Fereshteh Forghani, Konstantinos G. Derpanis, Marcus A.
Brubaker
- Abstract要約: 本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
- 参考スコア(独自算出の注目度): 24.301334966272297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis from a single input image is a challenging task, where
the goal is to generate a new view of a scene from a desired camera pose that
may be separated by a large motion. The highly uncertain nature of this
synthesis task due to unobserved elements within the scene (i.e. occlusion) and
outside the field-of-view makes the use of generative models appealing to
capture the variety of possible outputs. In this paper, we propose a novel
generative model capable of producing a sequence of photorealistic images
consistent with a specified camera trajectory, and a single starting image. Our
approach is centred on an autoregressive conditional diffusion-based model
capable of interpolating visible scene elements, and extrapolating unobserved
regions in a view, in a geometrically consistent manner. Conditioning is
limited to an image capturing a single camera view and the (relative) pose of
the new camera view. To measure the consistency over a sequence of generated
views, we introduce a new metric, the thresholded symmetric epipolar distance
(TSED), to measure the number of consistent frame pairs in a sequence. While
previous methods have been shown to produce high quality images and consistent
semantics across pairs of views, we show empirically with our metric that they
are often inconsistent with the desired camera poses. In contrast, we
demonstrate that our method produces both photorealistic and view-consistent
imagery.
- Abstract(参考訳): 一つの入力画像からの新しい視点合成は難しい課題であり、大きな動きで分離される可能性のある所望のカメラポーズからシーンの新しい視点を生成することが目的である。
この合成タスクの非常に不確実な性質は、シーン内および視野外における未観測要素(すなわち閉塞)によるものであり、様々な出力を捉えるために魅力的な生成モデルを使用することである。
本稿では,特定のカメラ軌跡に整合した一連のフォトリアリスティック画像を生成可能な新しい生成モデルと,単一の開始画像を提案する。
本手法は,視覚的シーン要素を補間し,未観測領域を幾何学的に一貫した方法で外挿できる自己回帰的条件拡散モデルに基づく。
条件付けは、単一のカメラビューをキャプチャするイメージと、新しいカメラビューの(相対的な)ポーズに限られる。
生成したビューのシーケンス上の一貫性を測定するために、新しいメトリック、しきい値付き対称エピポーラ距離(TSED)を導入し、シーケンス内の一貫したフレームペアの数を測定する。
従来の手法では画質の高い画像と、ビューのペア間で一貫性のあるセマンティクスを生成できることが示されているが、我々の測定値と実証的に比較すると、それらはしばしば所望のカメラのポーズと一致しない。
対照的に,本手法はフォトリアリスティック画像とビュー一貫性画像の両方を生成する。
関連論文リスト
- MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - DiffPortrait3D: Controllable Diffusion for Zero-Shot Portrait View Synthesis [18.64688172651478]
本稿では,DiffPortrait3Dについて述べる。DiffPortrait3Dは,3次元一貫性のあるフォトリアリスティック・ノベルビューを合成できる条件拡散モデルである。
一つのRGB入力が与えられた場合、我々は、新しいカメラビューから表現された、可塑性だが一貫した顔の詳細を合成することを目指している。
我々は、我々の挑戦的インザワイルドとマルチビューのベンチマークにおいて、質的にも定量的にも、最先端の結果を実証する。
論文 参考訳(メタデータ) (2023-12-20T13:31:11Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Consistent View Synthesis with Pose-Guided Diffusion Models [51.37925069307313]
単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-30T17:59:22Z) - Zero-1-to-3: Zero-shot One Image to 3D Object [30.455300183998247]
単一のRGB画像のみを与えられたオブジェクトのカメラ視点を変更するためのフレームワークであるZero-1-to-3を紹介する。
条件拡散モデルは、合成データセットを用いて、相対カメラ視点の制御を学習する。
提案手法は,インターネット規模の事前学習を活用して,最先端の1次元3次元再構成と新しいビュー合成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-03-20T17:59:50Z) - MELON: NeRF with Unposed Images in SO(3) [35.093700416540436]
ニューラルネットワークは、非提示画像から最先端の精度でニューラルラジアンス場を再構築でき、対向的アプローチの10倍のビューを必要とすることを示す。
ニューラルネットを用いてポーズ推定を正則化することにより,提案手法は非ポーズ画像から最先端の精度でニューラルレイディアンス場を再構築し,敵のアプローチの10倍のビューを要求できることを示した。
論文 参考訳(メタデータ) (2023-03-14T17:33:39Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。