論文の概要: VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing
- arxiv url: http://arxiv.org/abs/2407.04461v2
- Date: Thu, 15 Aug 2024 01:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 18:07:06.430296
- Title: VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing
- Title(参考訳): VCDテクスチャ:テキストガイドテクスチャのための可変アライメントに基づく3D-2Dコノイング
- Authors: Shang Liu, Chaohui Yu, Chenjie Cao, Wen Qian, Fan Wang,
- Abstract要約: 本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。
我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
- 参考スコア(独自算出の注目度): 22.39760469467524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent research on texture synthesis for 3D shapes benefits a lot from dramatically developed 2D text-to-image diffusion models, including inpainting-based and optimization-based approaches. However, these methods ignore the modal gap between the 2D diffusion model and 3D objects, which primarily render 3D objects into 2D images and texture each image separately. In this paper, we revisit the texture synthesis and propose a Variance alignment based 3D-2D Collaborative Denoising framework, dubbed VCD-Texture, to address these issues. Formally, we first unify both 2D and 3D latent feature learning in diffusion self-attention modules with re-projected 3D attention receptive fields. Subsequently, the denoised multi-view 2D latent features are aggregated into 3D space and then rasterized back to formulate more consistent 2D predictions. However, the rasterization process suffers from an intractable variance bias, which is theoretically addressed by the proposed variance alignment, achieving high-fidelity texture synthesis. Moreover, we present an inpainting refinement to further improve the details with conflicting regions. Notably, there is not a publicly available benchmark to evaluate texture synthesis, which hinders its development. Thus we construct a new evaluation set built upon three open-source 3D datasets and propose to use four metrics to thoroughly validate the texturing performance. Comprehensive experiments demonstrate that VCD-Texture achieves superior performance against other counterparts.
- Abstract(参考訳): 3次元形状のテクスチャ合成に関する最近の研究は、インペイントベースや最適化ベースのアプローチを含む、劇的に発達した2次元テキスト・画像拡散モデルから多くの恩恵を受けている。
しかし、これらの手法は、主に3次元オブジェクトを2次元画像に描画し、各画像のテクスチャを分離する2次元拡散モデルと3次元オブジェクトとのモードギャップを無視する。
本稿では,テクスチャ合成を再考し,これらの問題に対処するため,VCD-Textureと呼ばれる3D-2Dコラボレーティブ・デノケーション・フレームワークを提案する。
まず,拡散自己注意モジュールにおける2次元と3次元の潜在特徴学習を3次元の注意受容場に再投影して統合する。
その後、マルチビュー2D潜在特徴を3次元空間に集約し、さらに一貫した2D予測を定式化するためにラスタ化する。
しかし, ラスタ化過程は, 高忠実なテクスチャ合成を実現するため, 理論上は分散アライメントによって対処される, 難解な分散バイアスに悩まされる。
さらに,対立する地域との密接な関係をさらに改善するため,環境改善を図った。
特に、テクスチャ合成を評価するためのベンチマークは公開されていないため、開発を妨げている。
そこで我々は,3つのオープンソース3Dデータセット上に構築された新しい評価セットを構築し,テクスチャ性能を徹底的に検証する4つの指標を提案する。
総合的な実験により、VCD-Textureは他のものよりも優れた性能を発揮することが示された。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - DreamFusion: Text-to-3D using 2D Diffusion [52.52529213936283]
テキストと画像の合成の最近の進歩は、何十億もの画像と画像のペアで訓練された拡散モデルによって引き起こされている。
本研究では,事前訓練された2次元テキスト・ツー・イメージ拡散モデルを用いてテキスト・ツー・3次元合成を行うことにより,これらの制約を回避する。
提案手法では,3次元トレーニングデータや画像拡散モデルの変更は必要とせず,事前訓練した画像拡散モデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-09-29T17:50:40Z) - STS-GAN: Can We Synthesize Solid Texture with High Fidelity from
Arbitrary 2D Exemplar? [20.58364192180389]
任意の3次元立体テクスチャに拡張するために,新たに生成した逆向きネットベースフレームワーク(STS-GAN)を提案する。
STS-GANにおいて、マルチスケール2次元テクスチャ識別器は、3次元テクスチャから得られた2次元の例とスライスとの類似性を評価し、現実的な立体テクスチャを合成する3次元テクスチャ生成装置を推進した。
論文 参考訳(メタデータ) (2021-02-08T02:51:34Z) - Towards Realistic 3D Embedding via View Alignment [53.89445873577063]
本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動的に埋め込み,新たな画像を構成する,革新的なビューアライメントGAN(VA-GAN)を提案する。
VA-GANはテクスチャジェネレータとディファレンシャルディスクリミネーターで構成され、相互接続され、エンドツーエンドのトレーニングが可能である。
論文 参考訳(メタデータ) (2020-07-14T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。