論文の概要: RefAny3D: 3D Asset-Referenced Diffusion Models for Image Generation
- arxiv url: http://arxiv.org/abs/2601.22094v1
- Date: Thu, 29 Jan 2026 18:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.076873
- Title: RefAny3D: 3D Asset-Referenced Diffusion Models for Image Generation
- Title(参考訳): RefAny3D:画像生成のための3次元アセット参照拡散モデル
- Authors: Hanzhuo Huang, Qingyang Bao, Zekai Gu, Zhongshuo Du, Cheng Lin, Yuan Liu, Sibei Yang,
- Abstract要約: 画像生成のための3次元アセット参照拡散モデルを提案する。
提案手法では、3Dアセットを参照として有効に利用し、与えられたアセットと整合した画像を生成する。
- 参考スコア(独自算出の注目度): 33.60632657499695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a 3D asset-referenced diffusion model for image generation, exploring how to integrate 3D assets into image diffusion models. Existing reference-based image generation methods leverage large-scale pretrained diffusion models and demonstrate strong capability in generating diverse images conditioned on a single reference image. However, these methods are limited to single-image references and cannot leverage 3D assets, constraining their practical versatility. To address this gap, we present a cross-domain diffusion model with dual-branch perception that leverages multi-view RGB images and point maps of 3D assets to jointly model their colors and canonical-space coordinates, achieving precise consistency between generated images and the 3D references. Our spatially aligned dual-branch generation architecture and domain-decoupled generation mechanism ensure the simultaneous generation of two spatially aligned but content-disentangled outputs, RGB images and point maps, linking 2D image attributes with 3D asset attributes. Experiments show that our approach effectively uses 3D assets as references to produce images consistent with the given assets, opening new possibilities for combining diffusion models with 3D content creation.
- Abstract(参考訳): 本稿では,画像生成のための3次元アセット参照拡散モデルを提案し,画像拡散モデルに3次元アセットを統合する方法について検討する。
既存の参照ベース画像生成手法は,大規模な事前学習拡散モデルを活用し,単一の参照画像に条件付けされた多様な画像を生成する強力な能力を示す。
しかし、これらの手法は単一の画像参照に限られており、3Dアセットを活用できないため、実用的汎用性は制限されない。
このギャップに対処するために,多視点RGB画像と3Dアセットのポイントマップを利用して,色と標準空間座標を共同でモデル化し,生成した画像と3D参照との正確な整合性を実現する,二重ブランチ認識を用いたクロスドメイン拡散モデルを提案する。
空間的に整列した二重ブランチ生成アーキテクチャとドメイン分離生成機構により、空間的に整列する2つのコンテンツ非整合出力、RGB画像とポイントマップを同時に生成し、2D画像属性と3Dアセット属性をリンクする。
実験により, 提案手法は, 3次元アセットを参照として有効に利用して, 与えられたアセットに整合した画像を生成し, 拡散モデルと3次元コンテンツ生成を結合する新たな可能性を開くことを示した。
関連論文リスト
- Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation [15.374873279207623]
本稿では,3Dオブジェクトの生成,編集,拡張を行う効率的なフレームワークであるKiss3DGen(Keep It Simple and Straightforward in 3D Generation)を紹介する。
具体的には,多視点画像とその対応する正規写像からなるタイル付き表現である'3D Bundle Image'を生成するために拡散モデルを微調整する。
この簡単な方法は、3次元生成問題を2次元画像生成タスクに効果的に変換し、事前訓練された拡散モデルにおける知識の利用を最大化する。
論文 参考訳(メタデータ) (2025-03-03T10:07:19Z) - DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。
実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文 参考訳(メタデータ) (2024-12-11T07:32:17Z) - Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。
シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。
Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文 参考訳(メタデータ) (2024-12-03T17:58:07Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Wonder3D: Single Image to 3D using Cross-Domain Diffusion [105.16622018766236]
Wonder3Dは、単一視点画像から高忠実なテクスチャメッシュを効率的に生成する新しい手法である。
画像から3Dまでのタスクの品質,一貫性,効率性を総括的に改善するため,領域間拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-10-23T15:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。