論文の概要: DiGA3D: Coarse-to-Fine Diffusional Propagation of Geometry and Appearance for Versatile 3D Inpainting
- arxiv url: http://arxiv.org/abs/2507.00429v1
- Date: Tue, 01 Jul 2025 04:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.333974
- Title: DiGA3D: Coarse-to-Fine Diffusional Propagation of Geometry and Appearance for Versatile 3D Inpainting
- Title(参考訳): DiGA3D : 表面形状の粗大な拡散伝播と3Dインパインティングの出現
- Authors: Jingyi Pan, Dan Xu, Qiong Luo,
- Abstract要約: 単一の参照インペインティングメソッドは、参照ビューから離れたビューを扱う場合、堅牢性に欠ける。
出現不整合は、独立に2次元拡散先行のマルチビュー画像に着色するときに生じる。
DiGA3Dは拡散モデルを用いて、一貫した外観と幾何学を粗い方法で伝播する。
- 参考スコア(独自算出の注目度): 10.515239541326737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing a unified pipeline that enables users to remove, re-texture, or replace objects in a versatile manner is crucial for text-guided 3D inpainting. However, there are still challenges in performing multiple 3D inpainting tasks within a unified framework: 1) Single reference inpainting methods lack robustness when dealing with views that are far from the reference view. 2) Appearance inconsistency arises when independently inpainting multi-view images with 2D diffusion priors; 3) Geometry inconsistency limits performance when there are significant geometric changes in the inpainting regions. To tackle these challenges, we introduce DiGA3D, a novel and versatile 3D inpainting pipeline that leverages diffusion models to propagate consistent appearance and geometry in a coarse-to-fine manner. First, DiGA3D develops a robust strategy for selecting multiple reference views to reduce errors during propagation. Next, DiGA3D designs an Attention Feature Propagation (AFP) mechanism that propagates attention features from the selected reference views to other views via diffusion models to maintain appearance consistency. Furthermore, DiGA3D introduces a Texture-Geometry Score Distillation Sampling (TG-SDS) loss to further improve the geometric consistency of inpainted 3D scenes. Extensive experiments on multiple 3D inpainting tasks demonstrate the effectiveness of our method. The project page is available at https://rorisis.github.io/DiGA3D/.
- Abstract(参考訳): 汎用的な方法でオブジェクトの削除、再テクスチャ、置換を可能にする統一パイプラインの開発は、テキストガイドによる3Dインペイントにとって不可欠である。
しかし、統一されたフレームワーク内で複数の3Dインペインティングタスクを実行する上ではまだ課題がある。
1)参照ビューから遠く離れたビューを扱う場合,単一の参照インペイント手法は堅牢性に欠ける。
2) 2次元拡散先行の多視点像を独立に塗布する場合に出現不整合が発生する。
3) 塗装領域に有意な幾何学的変化がある場合, 幾何学的不整合は性能に制限を与える。
これらの課題に対処するために,拡散モデルを利用して一貫した外観と幾何学を粗い方法で伝播する,斬新で多用途な3DインペイントパイプラインであるDiGA3Dを紹介する。
まず、DiGA3Dは、複数の参照ビューを選択し、伝搬中のエラーを減らすための堅牢な戦略を開発する。
次に、DiGA3Dは、アテンション・フィーチャー・プロパゲーション(AFP)機構を設計し、選択された参照ビューから他のビューへの注意的特徴を拡散モデルを介して伝播させ、外観整合性を維持する。
さらに、DGA3Dはテクスチャ・ジオメトリ・スコア蒸留サンプリング(TG-SDS)の損失を導入し、塗装された3Dシーンの幾何的一貫性をさらに向上させた。
複数の3次元インペイントタスクに対する広範囲な実験により,本手法の有効性が示された。
プロジェクトページはhttps://rorisis.github.io/DiGA3D/で公開されている。
関連論文リスト
- Geometry and Perception Guided Gaussians for Multiview-consistent 3D Generation from a Single Image [10.36303976374455]
既存のアプローチはしばしば、微調整された事前訓練された2D拡散モデルや、高速ネットワーク推論を通じて直接3D情報を生成することに依存している。
本稿では,新たなモデルトレーニングを必要とせず,幾何や知覚をシームレスに統合する新しい手法を提案する。
提案手法の高忠実度化を実証し, 新規なビュー合成法と3次元再構成法とを比較検討した。
論文 参考訳(メタデータ) (2025-06-26T11:22:06Z) - Constructing a 3D Town from a Single Image [23.231661811526955]
3DTownは、単一のトップダウンビューからリアルで一貫性のある3Dシーンを合成するために設計された、トレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
以上の結果から,1枚の画像から高品質な3Dタウンジェネレーションが実現可能であることを示す。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Visibility-Uncertainty-guided 3D Gaussian Inpainting via Scene Conceptional Learning [63.94919846010485]
3DGI)は、複数の入力ビューから補完的な視覚的・意味的手がかりを効果的に活用することが困難である。
本稿では,異なる入力ビュー間での3Dポイントの視認性不確実性を計測し,それらを用いて3DGIを誘導する手法を提案する。
ViSibility-uncerTainty-guided 3DGIとシーンコンセプトAl学習を統合し,新しい3DGIフレームワークであるVISTAを構築した。
論文 参考訳(メタデータ) (2025-04-23T06:21:11Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。