論文の概要: Consistent View Synthesis with Pose-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17598v1
- Date: Thu, 30 Mar 2023 17:59:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:12:54.514958
- Title: Consistent View Synthesis with Pose-Guided Diffusion Models
- Title(参考訳): ポーズ誘導拡散モデルによる一貫したビュー合成
- Authors: Hung-Yu Tseng, Qinbo Li, Changil Kim, Suhib Alsisan, Jia-Bin Huang,
Johannes Kopf
- Abstract要約: 単一の画像から新しいビューを合成することは、多くのバーチャルリアリティーアプリケーションにとって画期的な問題である。
本稿では,ポーズ誘導拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 51.37925069307313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Novel view synthesis from a single image has been a cornerstone problem for
many Virtual Reality applications that provide immersive experiences. However,
most existing techniques can only synthesize novel views within a limited range
of camera motion or fail to generate consistent and high-quality novel views
under significant camera movement. In this work, we propose a pose-guided
diffusion model to generate a consistent long-term video of novel views from a
single image. We design an attention layer that uses epipolar lines as
constraints to facilitate the association between different viewpoints.
Experimental results on synthetic and real-world datasets demonstrate the
effectiveness of the proposed diffusion model against state-of-the-art
transformer-based and GAN-based approaches.
- Abstract(参考訳): 単一の画像からの新しいビュー合成は、没入型体験を提供する多くの仮想現実アプリケーションにとって重要な問題となっている。
しかし、既存のほとんどの技術は、限られた範囲のカメラモーション内でのみ新規ビューを合成できるか、重要なカメラモーションの下で一貫した高品質な新規ビューを生成することができない。
本研究では,ポーズ誘導拡散モデルを提案し,単一の画像から新しいビューを一貫した長期的なビデオを生成する。
我々は、エピポーラ線を制約として、異なる視点間の関連を促進するアテンション層を設計する。
合成および実世界のデータセットに対する実験結果は、最先端トランスフォーマーとGANベースのアプローチに対する拡散モデルの有効性を示す。
関連論文リスト
- ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - ViVid-1-to-3: Novel View Synthesis with Video Diffusion Models [33.760292331843104]
単一のイメージからオブジェクトの新たなビューを生成することは、難しい作業です。
近年,拡散に基づくビュー合成法は大きな進歩を見せている。
本稿では,事前学習したビデオ拡散モデルを用いた簡単な方法を示す。
論文 参考訳(メタデータ) (2023-12-03T06:50:15Z) - Motion-Conditioned Diffusion Model for Controllable Video Synthesis [75.367816656045]
本稿では,開始画像フレームと一組のストロークから映像を生成する条件拡散モデルであるMCDiffを紹介する。
MCDiffはストローク誘導制御可能なビデオ合成における最先端の視覚的品質を実現する。
論文 参考訳(メタデータ) (2023-04-27T17:59:32Z) - Long-Term Photometric Consistent Novel View Synthesis with Diffusion
Models [24.301334966272297]
本稿では,特定のカメラ軌跡に整合したフォトリアリスティックな画像列を生成できる新しい生成モデルを提案する。
生成したビューのシーケンス上の一貫性を測定するために、新しい計量、しきい値付き対称極性距離(TSED)を導入する。
論文 参考訳(メタデータ) (2023-04-21T02:01:02Z) - HORIZON: High-Resolution Semantically Controlled Panorama Synthesis [105.55531244750019]
パノラマ合成は、仮想世界の中心にユーザーを没入させ、360度の視覚的な風景を再現する。
視覚合成の最近の進歩は、2次元平面画像における意味制御の可能性を解き放ったが、これらの手法のパノラマ合成への直接的応用は歪んだ内容を生み出す。
我々は,高分解能パノラマを生成するための革新的な枠組みを公表し,洗練された球面モデリングによる球面歪みとエッジ不連続性の問題に着目した。
論文 参考訳(メタデータ) (2022-10-10T09:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。