論文の概要: DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance
- arxiv url: http://arxiv.org/abs/2404.14676v2
- Date: Mon, 1 Jul 2024 14:43:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-02 14:29:42.334896
- Title: DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance
- Title(参考訳): DreamPBR:マルチモーダル誘導による高分解能SVBRDFのテキスト駆動生成
- Authors: Linxuan Xin, Zheng Zhang, Jinfu Wei, Wei Gao, Duan Gao,
- Abstract要約: テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出するための,新しい拡散型生成フレームワークを提案する。
多様な高品質なPBR素材生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力を統合することである。
教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
- 参考スコア(独自算出の注目度): 9.214785726215942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior material creation methods had limitations in producing diverse results mainly because reconstruction-based methods relied on real-world measurements and generation-based methods were trained on relatively small material datasets. To address these challenges, we propose DreamPBR, a novel diffusion-based generative framework designed to create spatially-varying appearance properties guided by text and multi-modal controls, providing high controllability and diversity in material generation. Key to achieving diverse and high-quality PBR material generation lies in integrating the capabilities of recent large-scale vision-language models trained on billions of text-image pairs, along with material priors derived from hundreds of PBR material samples. We utilize a novel material Latent Diffusion Model (LDM) to establish the mapping between albedo maps and the corresponding latent space. The latent representation is then decoded into full SVBRDF parameter maps using a rendering-aware PBR decoder. Our method supports tileable generation through convolution with circular padding. Furthermore, we introduce a multi-modal guidance module, which includes pixel-aligned guidance, style image guidance, and 3D shape guidance, to enhance the control capabilities of the material LDM. We demonstrate the effectiveness of DreamPBR in material creation, showcasing its versatility and user-friendliness on a wide range of controllable generation and editing applications.
- Abstract(参考訳): 従来, 素材生成法は, 実世界の計測に頼っていた再構成法と, 比較的小さな資料データセットを用いて, 生成法を訓練したことから, 多様な結果を生み出すのに限界があった。
これらの課題に対処するため,DreamPBRを提案する。DreamPBRは,テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出し,高制御性と物質生成の多様性を提供する。
多様な高品質のPBR材料生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力と、数百のPBR材料サンプルから派生した材料先行性を統合することである。
我々は,アルベドマップと対応する潜伏空間のマッピングを確立するために,新しい物質Latent Diffusion Model (LDM) を用いる。
潜在表現は、レンダリング対応のPBRデコーダを使用して完全なSVBRDFパラメータマップにデコードされる。
本手法は円パディングによる畳み込みによるタイル状発電を支援する。
さらに,LDMの制御能力を高めるために,画素アライメントガイダンス,スタイルイメージガイダンス,3次元形状ガイダンスを含むマルチモーダルガイダンスモジュールを導入する。
教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。
幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。
テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文 参考訳(メタデータ) (2024-11-03T15:15:01Z) - Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control [1.8692054990918074]
協調制御は、通常のバンプマップを含むPBR画像の確率分布を直接モデル化する。
本稿では,このモデルをマルチビューで一貫した設計決定について論じ,アブレーション研究におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-10-09T15:21:46Z) - 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文 参考訳(メタデータ) (2024-09-19T17:59:06Z) - StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning [2.037819652873519]
本稿では,フォトリアリスティック物理ベースレンダリング(PBR)材料を生成する新しいアプローチであるStableMaterialsを紹介する。
本手法は,既存の大規模画像生成モデルから知識を抽出するために,逆行訓練を用いる。
拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T16:29:46Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - ReflectanceFusion: Diffusion-based text to SVBRDF Generation [12.5036873986483]
テキスト記述から高忠実なSVBRDFマップを生成することができる新しいニューラルテキスト・ツー・テクスチャモデルであるReflectance Diffusionを導入する。
提案手法は2つのモジュールからなるタンデムニューラルアプローチを利用して,空間的に変化する反射率の分布を正確にモデル化する。
論文 参考訳(メタデータ) (2024-04-25T15:43:33Z) - MAP-Elites with Transverse Assessment for Multimodal Problems in
Creative Domains [2.7869568828212175]
品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しい手法を提案する。
我々の貢献は、MAP-Elitesアルゴリズム、MAP-Elites with Transverse Assessment (MEliTA)のバリエーションである。
MeliTAは、アーティファクトのモダリティを分離し、エリート間のクロスポーリングを促進する。
論文 参考訳(メタデータ) (2024-03-11T21:50:22Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。
提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文 参考訳(メタデータ) (2023-12-14T09:07:37Z) - MATLABER: Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR [29.96046140529936]
BRDF自動エンコーダ(textbfMATLABER)を用いたマテリアル・アウェア・テキスト・トゥ・3Dを提案する。
我々は,この自動エンコーダを大規模実世界のBRDFコレクションで訓練し,その潜在空間の滑らかさを確保する。
提案手法は, 現実的かつ一貫性のある物質を生成する上で, 既存の物質よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T03:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。