論文の概要: Category-Aware 3D Object Composition with Disentangled Texture and Shape Multi-view Diffusion
- arxiv url: http://arxiv.org/abs/2509.02357v1
- Date: Tue, 02 Sep 2025 14:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.060668
- Title: Category-Aware 3D Object Composition with Disentangled Texture and Shape Multi-view Diffusion
- Title(参考訳): アンタングル型テクスチャと形状多視点拡散を用いたカテゴリー認識3次元オブジェクト合成
- Authors: Zeren Xiong, Zikun Chen, Zedong Zhang, Xiang Li, Ying Tai, Jian Yang, Jun Li,
- Abstract要約: 我々は3次元オブジェクト合成の新しい課題に取り組み、3次元モデルと他のオブジェクトカテゴリを合成して新しい3次元モデルを作成する。
既存のテキスト/画像/3D-to-3Dメソッドの多くは、複数のコンテンツソースを効果的に統合するのに苦労している。
新規かつ構造的に整合した3Dモデルを生成するためのカテゴリ+3D-to-3D(C33D)を提案する。
- 参考スコア(独自算出の注目度): 31.888133775976414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle a new task of 3D object synthesis, where a 3D model is composited with another object category to create a novel 3D model. However, most existing text/image/3D-to-3D methods struggle to effectively integrate multiple content sources, often resulting in inconsistent textures and inaccurate shapes. To overcome these challenges, we propose a straightforward yet powerful approach, category+3D-to-3D (C33D), for generating novel and structurally coherent 3D models. Our method begins by rendering multi-view images and normal maps from the input 3D model, then generating a novel 2D object using adaptive text-image harmony (ATIH) with the front-view image and a text description from another object category as inputs. To ensure texture consistency, we introduce texture multi-view diffusion, which refines the textures of the remaining multi-view RGB images based on the novel 2D object. For enhanced shape accuracy, we propose shape multi-view diffusion to improve the 2D shapes of both the multi-view RGB images and the normal maps, also conditioned on the novel 2D object. Finally, these outputs are used to reconstruct a complete and novel 3D model. Extensive experiments demonstrate the effectiveness of our method, yielding impressive 3D creations, such as shark(3D)-crocodile(text) in the first row of Fig. 1. A project page is available at: https://xzr52.github.io/C33D/
- Abstract(参考訳): 本稿では,新しい3次元オブジェクト合成の課題に取り組み,新しい3Dモデルを作成するために,別のオブジェクトカテゴリと3Dモデルを合成する。
しかし、既存のテキスト/画像/3D-to-3D手法は、複数のコンテンツソースを効果的に統合するのに苦労し、しばしば一貫性のないテクスチャと不正確な形状をもたらす。
これらの課題を克服するために,新規かつ構造的に整合した3Dモデルを生成するための,単純かつ強力なカテゴリ+3D-to-3D(C33D)を提案する。
提案手法は,入力された3Dモデルから多視点画像と正規マップをレンダリングし,その上で,適応的テキスト画像調和(ATIH)を用いた新しい2Dオブジェクトと,他のオブジェクトカテゴリからのテキスト記述を入力として生成することから始める。
テクスチャの整合性を確保するため,新しい2Dオブジェクトをベースとしたテクスチャ・マルチビュー・ディフュージョンを導入し,残りのマルチビュー・RGB画像のテクスチャを改良する。
形状精度を向上させるために,新しい2次元オブジェクトに条件付された多視点RGB画像と通常の地図の両方の2次元形状を改善するために,形状多視点拡散法を提案する。
最後に、これらの出力は、完全で斬新な3Dモデルを再構築するために使用される。
広範に実験を行った結果,Fig 1 の第1列のサメ(3D)-クロコダイル(テキスト)のような印象的な3D生成が得られた。
プロジェクトページは、https://xzr52.github.io/C33D/で公開されている。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から前方の3Dシーンを生成する技術である。
本研究では, 初期現場推定値に条件付き2次元塗布拡散モデルを利用して, 3次元蒸留における未知領域の低分散監視を行う。
特に,ビデオやマルチビューのデータを必要とせず,複雑なレイアウトで様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。