論文の概要: EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion
- arxiv url: http://arxiv.org/abs/2312.06725v2
- Date: Sat, 16 Mar 2024 15:16:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:42:50.094450
- Title: EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion
- Title(参考訳): EpiDiff: 局所化エピポーラ制約拡散による多視点合成の促進
- Authors: Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, Lu Sheng,
- Abstract要約: EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
- 参考スコア(独自算出の注目度): 60.30030562932703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating multiview images from a single view facilitates the rapid generation of a 3D mesh conditioned on a single image. Recent methods that introduce 3D global representation into diffusion models have shown the potential to generate consistent multiviews, but they have reduced generation speed and face challenges in maintaining generalizability and quality. To address this issue, we propose EpiDiff, a localized interactive multiview diffusion model. At the core of the proposed approach is to insert a lightweight epipolar attention block into the frozen diffusion model, leveraging epipolar constraints to enable cross-view interaction among feature maps of neighboring views. The newly initialized 3D modeling module preserves the original feature distribution of the diffusion model, exhibiting compatibility with a variety of base diffusion models. Experiments show that EpiDiff generates 16 multiview images in just 12 seconds, and it surpasses previous methods in quality evaluation metrics, including PSNR, SSIM and LPIPS. Additionally, EpiDiff can generate a more diverse distribution of views, improving the reconstruction quality from generated multiviews. Please see our project page at https://huanngzh.github.io/EpiDiff/.
- Abstract(参考訳): 単一のビューからマルチビュー画像を生成することにより、単一のイメージ上に条件付けられた3Dメッシュの迅速な生成が容易になる。
拡散モデルに3次元グローバル表現を導入する最近の手法は、一貫性のあるマルチビューを生成する可能性を示しているが、それらは生成速度を減らし、一般化性と品質を維持する上での課題に直面している。
本稿では,局所的対話型多視点拡散モデルであるEpiDiffを提案する。
提案手法の核となるのは,凍結拡散モデルに軽量なエピポーラアテンションブロックを挿入し,エピポーラ制約を活用して隣接するビューの特徴写像間のクロスビュー相互作用を可能にすることである。
新たに初期化された3Dモデリングモジュールは、拡散モデルの本来の特徴分布を保持し、様々なベース拡散モデルとの互換性を示す。
実験の結果、EpiDiffは16枚のマルチビュー画像をわずか12秒で生成し、PSNR、SSIM、LPIPSなどの品質評価指標を上回っている。
さらに、EpiDiffはビューのより多様な分布を生成し、生成されたマルチビューから再構築品質を改善することができる。
プロジェクトページはhttps://huanngzh.github.io/EpiDiff/。
関連論文リスト
- MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - Carve3D: Improving Multi-view Reconstruction Consistency for Diffusion Models with RL Finetuning [40.51051863133226]
さらなる強化学習ファインタニング(RLFT)の恩恵を受ける多視点拡散モデル
本稿では,改良されたRLFTアルゴリズムであるCarve3Dと,新しいMRC(Multi-view Reconstruction Consistency)メトリクスを紹介する。
この結果から,多視点拡散モデルの開発には,SFTとCarve3DのRLFTのペアリングが不可欠であることが示唆された。
論文 参考訳(メタデータ) (2023-12-21T16:10:33Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view Image [59.75474518708409]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。