論文の概要: EpiDiff: Enhancing Multi-View Synthesis via Localized
Epipolar-Constrained Diffusion
- arxiv url: http://arxiv.org/abs/2312.06725v1
- Date: Mon, 11 Dec 2023 05:20:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 18:34:03.374309
- Title: EpiDiff: Enhancing Multi-View Synthesis via Localized
Epipolar-Constrained Diffusion
- Title(参考訳): EpiDiff: 局所化エピポーラ制約拡散による多視点合成の促進
- Authors: Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li,
Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, Lu Sheng
- Abstract要約: EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。
16枚のマルチビュー画像をわずか12秒で生成する。
品質評価の指標では、以前の手法を上回ります。
- 参考スコア(独自算出の注目度): 62.09503304660607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating multiview images from a single view facilitates the rapid
generation of a 3D mesh conditioned on a single image. Recent methods that
introduce 3D global representation into diffusion models have shown the
potential to generate consistent multiviews, but they have reduced generation
speed and face challenges in maintaining generalizability and quality. To
address this issue, we propose EpiDiff, a localized interactive multiview
diffusion model. At the core of the proposed approach is to insert a
lightweight epipolar attention block into the frozen diffusion model,
leveraging epipolar constraints to enable cross-view interaction among feature
maps of neighboring views. The newly initialized 3D modeling module preserves
the original feature distribution of the diffusion model, exhibiting
compatibility with a variety of base diffusion models. Experiments show that
EpiDiff generates 16 multiview images in just 12 seconds, and it surpasses
previous methods in quality evaluation metrics, including PSNR, SSIM and LPIPS.
Additionally, EpiDiff can generate a more diverse distribution of views,
improving the reconstruction quality from generated multiviews. Please see our
project page at https://huanngzh.github.io/EpiDiff/.
- Abstract(参考訳): 単一のビューからマルチビュー画像を生成することで、単一のイメージに条件付けられた3dメッシュの迅速な生成が容易になる。
拡散モデルに3次元グローバル表現を導入する最近の手法は、一貫性のあるマルチビューを生成する可能性を示しているが、それらは生成速度を減らし、一般化性と品質を維持する上での課題に直面している。
本稿では,局所的対話型多視点拡散モデルであるEpiDiffを提案する。
提案手法の核心は、凍結拡散モデルに軽量なエピポーラ注意ブロックを挿入し、エピポーラ制約を利用して隣り合うビューの特徴マップ間のクロスビューインタラクションを可能にすることである。
新たに初期化された3Dモデリングモジュールは、拡散モデルの本来の特徴分布を保持し、様々なベース拡散モデルとの互換性を示す。
実験の結果、EpiDiffは16枚のマルチビュー画像をわずか12秒で生成し、PSNR、SSIM、LPIPSなどの品質評価指標を上回っている。
さらに、EpiDiffはビューのより多様な分布を生成し、生成されたマルチビューから再構築品質を改善することができる。
プロジェクトページはhttps://huanngzh.github.io/EpiDiff/。
関連論文リスト
- Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - ViewFusion: Towards Multi-View Consistency via Interpolated Denoising [48.02829400913904]
既存のトレーニング済み拡散モデルにシームレスに統合可能なトレーニングフリーアルゴリズムであるViewFusionを導入する。
提案手法では,事前生成したビューを,次のビュー生成のコンテキストとして暗黙的に活用する自動回帰手法を採用する。
我々のフレームワークは、追加の微調整なしで複数ビュー条件設定で機能するように、単一ビュー条件付きモデルをうまく拡張しました。
論文 参考訳(メタデータ) (2024-02-29T04:21:38Z) - ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion [61.37481051263816]
本稿では,1つの3Dオブジェクトのイメージが与えられた場合,同じオブジェクトの複数の画像を生成できる手法(ConsistNet)を提案する。
凍結したZero123のバックボーン上での3次元の一貫性を効果的に学習し、1つのA100 GPU上で40秒以内でオブジェクトの周囲のビューを生成する。
論文 参考訳(メタデータ) (2023-10-16T12:29:29Z) - SyncDreamer: Generating Multiview-consistent Images from a Single-view
Image [62.751189946480096]
SyncDreamerと呼ばれる新しい拡散モデルが単一ビュー画像から複数ビュー一貫性のある画像を生成する。
実験の結果、SyncDreamerはさまざまなビューに対して高い一貫性を持つ画像を生成することがわかった。
論文 参考訳(メタデータ) (2023-09-07T02:28:04Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。