Fugu-MT 論文翻訳(概要): EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion

論文の概要: EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion

arxiv url: http://arxiv.org/abs/2312.06725v1
Date: Mon, 11 Dec 2023 05:20:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 18:34:03.374309
Title: EpiDiff: Enhancing Multi-View Synthesis via Localized Epipolar-Constrained Diffusion
Title（参考訳）: EpiDiff: 局所化エピポーラ制約拡散による多視点合成の促進
Authors: Zehuan Huang, Hao Wen, Junting Dong, Yaohui Wang, Yangguang Li, Xinyuan Chen, Yan-Pei Cao, Ding Liang, Yu Qiao, Bo Dai, Lu Sheng
Abstract要約: EpiDiffは、局所的なインタラクティブなマルチビュー拡散モデルである。 16枚のマルチビュー画像をわずか12秒で生成する。品質評価の指標では、以前の手法を上回ります。
参考スコア（独自算出の注目度）: 62.09503304660607
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating multiview images from a single view facilitates the rapid generation of a 3D mesh conditioned on a single image. Recent methods that introduce 3D global representation into diffusion models have shown the potential to generate consistent multiviews, but they have reduced generation speed and face challenges in maintaining generalizability and quality. To address this issue, we propose EpiDiff, a localized interactive multiview diffusion model. At the core of the proposed approach is to insert a lightweight epipolar attention block into the frozen diffusion model, leveraging epipolar constraints to enable cross-view interaction among feature maps of neighboring views. The newly initialized 3D modeling module preserves the original feature distribution of the diffusion model, exhibiting compatibility with a variety of base diffusion models. Experiments show that EpiDiff generates 16 multiview images in just 12 seconds, and it surpasses previous methods in quality evaluation metrics, including PSNR, SSIM and LPIPS. Additionally, EpiDiff can generate a more diverse distribution of views, improving the reconstruction quality from generated multiviews. Please see our project page at https://huanngzh.github.io/EpiDiff/.
Abstract（参考訳）: 単一のビューからマルチビュー画像を生成することで、単一のイメージに条件付けられた3dメッシュの迅速な生成が容易になる。拡散モデルに3次元グローバル表現を導入する最近の手法は、一貫性のあるマルチビューを生成する可能性を示しているが、それらは生成速度を減らし、一般化性と品質を維持する上での課題に直面している。本稿では,局所的対話型多視点拡散モデルであるEpiDiffを提案する。提案手法の核心は、凍結拡散モデルに軽量なエピポーラ注意ブロックを挿入し、エピポーラ制約を利用して隣り合うビューの特徴マップ間のクロスビューインタラクションを可能にすることである。新たに初期化された3Dモデリングモジュールは、拡散モデルの本来の特徴分布を保持し、様々なベース拡散モデルとの互換性を示す。実験の結果、EpiDiffは16枚のマルチビュー画像をわずか12秒で生成し、PSNR、SSIM、LPIPSなどの品質評価指標を上回っている。さらに、EpiDiffはビューのより多様な分布を生成し、生成されたマルチビューから再構築品質を改善することができる。プロジェクトページはhttps://huanngzh.github.io/EpiDiff/。

関連論文リスト

MEAT: Multiview Diffusion Model for Human Generation on Megapixels with Mesh Attention [83.56588173102594]
1024x1024解像度でのトレーニングを可能にするメッシュアテンションというソリューションを導入しました。このアプローチは、クロスビュー一貫性を維持しながら、マルチビューアテンションの複雑さを著しく低減します。この基盤の上にメッシュアテンションブロックを設計し、キーポイント条件付けと組み合わせて、人間固有のマルチビュー拡散モデルMEATを作成します。
論文参考訳（メタデータ） (2025-03-11T17:50:59Z)
3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文参考訳（メタデータ） (2024-12-24T17:36:34Z)
Towards High-Fidelity 3D Portrait Generation with Rich Details by Cross-View Prior-Aware Diffusion [63.81544586407943]
シングルイメージの3Dポートレート生成法は通常、多視点の知識を提供するために2次元拡散モデルを使用し、それを3次元表現に蒸留する。本稿では,複数ビュー画像の状態の整合性を高める条件として,複数ビュー先行を明示的かつ暗黙的に組み込んだハイブリッド優先ディフジョンモデルを提案する。実験により,1枚の画像から正確な幾何学的,詳細な3次元像を作成できることが示された。
論文参考訳（メタデータ） (2024-11-15T17:19:18Z)
PlacidDreamer: Advancing Harmony in Text-to-3D Generation [20.022078051436846]
PlacidDreamerは、マルチビュー生成とテキスト条件生成を調和させるテキストから3Dフレームワークである。バランスの取れた飽和を達成するために、新しいスコア蒸留アルゴリズムを採用している。
論文参考訳（メタデータ） (2024-07-19T02:00:04Z)
MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-06-26T17:53:51Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文参考訳（メタデータ） (2024-05-06T22:55:53Z)
Diffusion$^2$: Dynamic 3D Content Generation via Score Composition of Video and Multi-view Diffusion Models [6.738732514502613]
Diffusion$2$は動的3Dコンテンツ作成のための新しいフレームワークである。 3次元モデルからの幾何的一貫性と時間的滑らかさに関する知識を精査し、密集した多視点画像を直接サンプリングする。非常にシームレスで一貫した4Dアセットを生成する上で,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-02T17:58:03Z)
Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文参考訳（メタデータ） (2023-05-24T14:00:32Z)
Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文参考訳（メタデータ） (2023-04-13T17:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。