論文の概要: CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction
- arxiv url: http://arxiv.org/abs/2503.08005v1
- Date: Tue, 11 Mar 2025 03:08:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:49.823165
- Title: CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction
- Title(参考訳): CDI3D:3次元再構成のためのクロスガイドダンスビュー補間
- Authors: Zhiyuan Wu, Xibin Song, Senbo Wang, Weizhe Liu, Jiayu Yang, Ziang Cheng, Shenzhou Chen, Taizhang Shang, Weixuan Sun, Shan Luo, Pan Ji,
- Abstract要約: 大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
- 参考スコア(独自算出の注目度): 25.468907201804093
- License:
- Abstract: 3D object reconstruction from single-view image is a fundamental task in computer vision with wide-ranging applications. Recent advancements in Large Reconstruction Models (LRMs) have shown great promise in leveraging multi-view images generated by 2D diffusion models to extract 3D content. However, challenges remain as 2D diffusion models often struggle to produce dense images with strong multi-view consistency, and LRMs tend to amplify these inconsistencies during the 3D reconstruction process. Addressing these issues is critical for achieving high-quality and efficient 3D reconstruction. In this paper, we present CDI3D, a feed-forward framework designed for efficient, high-quality image-to-3D generation with view interpolation. To tackle the aforementioned challenges, we propose to integrate 2D diffusion-based view interpolation into the LRM pipeline to enhance the quality and consistency of the generated mesh. Specifically, our approach introduces a Dense View Interpolation (DVI) module, which synthesizes interpolated images between main views generated by the 2D diffusion model, effectively densifying the input views with better multi-view consistency. We also design a tilt camera pose trajectory to capture views with different elevations and perspectives. Subsequently, we employ a tri-plane-based mesh reconstruction strategy to extract robust tokens from these interpolated and original views, enabling the generation of high-quality 3D meshes with superior texture and geometry. Extensive experiments demonstrate that our method significantly outperforms previous state-of-the-art approaches across various benchmarks, producing 3D content with enhanced texture fidelity and geometric accuracy.
- Abstract(参考訳): シングルビュー画像からの3Dオブジェクトの再構成は、広範に応用されたコンピュータビジョンの基本的な課題である。
大規模再構成モデル(LRM)の最近の進歩は、2次元拡散モデルによって生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし, 2次元拡散モデルでは, 強い多視点整合性を持つ高密度画像の生成に苦慮することが多く, LRMは3次元再構成過程においてこれらの不整合を増幅する傾向があるため, 課題は残る。
これらの課題に対処することは、高品質で効率的な3D再構成を実現するために重要である。
本稿では,ビュー補間による高画質な3D画像生成のためのフィードフォワードフレームワークであるCDI3Dを提案する。
上記の課題に対処するために、生成されたメッシュの品質と一貫性を高めるために、2次元拡散に基づくビュー補間をLRMパイプラインに統合することを提案する。
具体的には、Dense View Interpolation (DVI) モジュールを導入し、2次元拡散モデルにより生成された主ビュー間の補間画像を合成し、より優れたマルチビュー整合性で入力ビューを効果的に密度化する。
また、傾斜カメラのポーズトラジェクタを設計し、高度と視点の異なるビューをキャプチャする。
その後、これらの補間およびオリジナルビューからロバストトークンを抽出するために、三面体ベースのメッシュ再構成戦略を採用し、優れたテクスチャと幾何学を有する高品質な3Dメッシュの生成を可能にした。
本手法は, 各種ベンチマークにおいて, テクスチャの忠実度と幾何学的精度を向上した3Dコンテンツを生成し, 従来の最先端手法よりも大幅に優れていた。
関連論文リスト
- Direct and Explicit 3D Generation from a Single Image [25.207277983430608]
マルチビュー2次元深度画像とRGB画像を用いて表面形状とテクスチャを直接生成する新しいフレームワークを提案する。
画素レベルの多視点整合性を実現するために,エピポーラの注意を潜時から画素間デコーダに組み込む。
生成した深度画素を3次元空間にバックプロジェクションすることにより、構造化された3次元表現を生成する。
論文 参考訳(メタデータ) (2024-11-17T03:14:50Z) - Hi3D: Pursuing High-Resolution Image-to-3D Generation with Video Diffusion Models [112.2625368640425]
High- resolution Image-to-3D model (Hi3D) はビデオ拡散に基づく新しいパラダイムであり、単一の画像を3D対応シーケンシャル画像生成としてマルチビュー画像に再定義する。
Hi3Dは事前に学習した映像拡散モデルを3D対応で強化し、低解像度のテクスチャディテールを持つマルチビュー画像を生成する。
論文 参考訳(メタデータ) (2024-09-11T17:58:57Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Envision3D: One Image to 3D with Anchor Views Interpolation [18.31796952040799]
本研究では,1枚の画像から高品質な3Dコンテンツを効率よく生成する新しい手法であるEnvision3Dを提案する。
テクスチャと幾何学の観点から高品質な3Dコンテンツを生成することができ、従来の画像から3Dのベースライン法を超越している。
論文 参考訳(メタデータ) (2024-03-13T18:46:33Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - Multi-View Consistent Generative Adversarial Networks for 3D-aware Image
Synthesis [48.33860286920389]
3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。
既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。
幾何制約付き高品質な3次元画像合成のためのマルチビュー一貫性ジェネレータネットワーク(MVCGAN)を提案する。
論文 参考訳(メタデータ) (2022-04-13T11:23:09Z) - Efficient Geometry-aware 3D Generative Adversarial Networks [50.68436093869381]
既存の3D GANは計算集約的であるか、3D一貫性のない近似を行う。
本研究では、3D GANの計算効率と画質をこれらの近似に頼らずに改善する。
本稿では,高解像度のマルチビュー一貫性画像だけでなく,高品質な3次元形状をリアルタイムに合成する,表現型ハイブリッド・明示型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-15T08:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。