論文の概要: ReflectanceFusion: Diffusion-based text to SVBRDF Generation
- arxiv url: http://arxiv.org/abs/2406.14565v1
- Date: Thu, 25 Apr 2024 15:43:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:30:49.439041
- Title: ReflectanceFusion: Diffusion-based text to SVBRDF Generation
- Title(参考訳): ReflectanceFusion: SVBRDF生成への拡散ベースのテキスト
- Authors: Bowen Xue, Giuseppe Claudio Guarnera, Shuang Zhao, Zahra Montazeri,
- Abstract要約: テキスト記述から高忠実なSVBRDFマップを生成することができる新しいニューラルテキスト・ツー・テクスチャモデルであるReflectance Diffusionを導入する。
提案手法は2つのモジュールからなるタンデムニューラルアプローチを利用して,空間的に変化する反射率の分布を正確にモデル化する。
- 参考スコア(独自算出の注目度): 12.5036873986483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Reflectance Diffusion, a new neural text-to-texture model capable of generating high-fidelity SVBRDF maps from textual descriptions. Our method leverages a tandem neural approach, consisting of two modules, to accurately model the distribution of spatially varying reflectance as described by text prompts. Initially, we employ a pre-trained stable diffusion 2 model to generate a latent representation that informs the overall shape of the material and serves as our backbone model. Then, our ReflectanceUNet enables fine-tuning control over the material's physical appearance and generates SVBRDF maps. ReflectanceUNet module is trained on an extensive dataset comprising approximately 200,000 synthetic spatially varying materials. Our generative SVBRDF diffusion model allows for the synthesis of multiple SVBRDF estimates from a single textual input, offering users the possibility to choose the output that best aligns with their requirements. We illustrate our method's versatility by generating SVBRDF maps from a range of textual descriptions, both specific and broad. Our ReflectanceUNet model can integrate optional physical parameters, such as roughness and specularity, enhancing customization. When the backbone module is fixed, the ReflectanceUNet module refines the material, allowing direct edits to its physical attributes. Comparative evaluations demonstrate that ReflectanceFusion achieves better accuracy than existing text-to-material models, such as Text2Mat, while also providing the benefits of editable and relightable SVBRDF maps.
- Abstract(参考訳): テキスト記述から高忠実なSVBRDFマップを生成することができる新しいニューラルテキスト・ツー・テクスチャモデルであるReflectance Diffusionを導入する。
本手法は,2つのモジュールからなるタンデムニューラルアプローチを利用して,テキストプロンプトによって記述される空間変化反射率分布を正確にモデル化する。
まず, 既訓練の安定拡散2モデルを用いて, 材料全体の形状を伝達し, バックボーンモデルとして機能する潜在表現を生成する。
そして、リフレクタンスUNetにより、材料の物理的外観を微調整し、SVBRDFマップを生成する。
ReflectanceUNetモジュールは、約20万の合成空間変化材料からなる広範囲なデータセットで訓練されている。
生成したSVBRDF拡散モデルにより,単一のテキスト入力から複数のSVBRDF推定値の合成が可能となり,ユーザが要求に最も適した出力を選択することができる。
本稿では,本手法の汎用性について,多種多様なテキスト記述からSVBRDFマップを生成することにより説明する。
当社のReflectanceUNetモデルは、粗さや仕様性などの任意の物理パラメータを統合することで、カスタマイズの強化を実現しています。
バックボーンモジュールが固定されると、ReflectanceUNetモジュールは素材を洗練し、物理的な属性を直接編集する。
比較評価では、リフレクタンスフュージョンはText2Matのような既存のテキストとマテリアルのモデルよりも精度が良く、また編集可能なSVBRDFマップの利点も示している。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - LLM4GEN: Leveraging Semantic Representation of LLMs for Text-to-Image Generation [30.897935761304034]
我々はtextbfLLM4GEN という新しいフレームワークを提案する。
特別に設計されたクロスアダプタモジュール(CAM)は、テキスト・ツー・イメージ・モデルのオリジナルのテキスト機能とLLM機能を統合する。
7000ドルの高密度プロンプトを含むDensePromptsは、テキスト・画像生成タスクの包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-06-30T15:50:32Z) - Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models [42.891427362223176]
デコーダのみの変換器をベースとした大規模言語モデル(LLM)は、優れたテキスト理解能力を示している。
LLMの能力をフル活用するための新しいフレームワークを提案する。
さらに, LLM-Infused Diffusion Transformer (LI-DiT) を設計した。
論文 参考訳(メタデータ) (2024-06-17T17:59:43Z) - MatFusion: A Generative Diffusion Model for SVBRDF Capture [3.3090362820994526]
画像からのSVBRDF推定を拡散タスクとして定式化する。
まず,312,165個の合成空間変化材料を用いた非条件SVBRDF拡散バックボーンモデルを訓練する。
各種入射照明に条件付きSVBRDF拡散モデルを精製することにより,本手法の柔軟性を実証する。
論文 参考訳(メタデータ) (2024-04-24T02:07:53Z) - DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance [9.214785726215942]
テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出するための,新しい拡散型生成フレームワークを提案する。
多様な高品質なPBR素材生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力を統合することである。
教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
論文 参考訳(メタデータ) (2024-04-23T02:04:53Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - Fine-Tuned Language Models Generate Stable Inorganic Materials as Text [57.01994216693825]
テキストエンコードされた原子構造データに基づく微調整された大規模言語モデルは、実装が簡単で信頼性が高い。
我々の最強モデルは、CDVAEの約2倍の速度で準安定であると予測された物質を生成することができる。
テキストプロンプト固有の柔軟性のため、我々のモデルは安定物質を無条件に生成するために同時に使用することができる。
論文 参考訳(メタデータ) (2024-02-06T20:35:28Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z) - MaterialGAN: Reflectance Capture using a Generative SVBRDF Model [33.578080406338266]
本稿では,StyleGAN2をベースとした深層生成畳み込みネットワークであるMaterialGANを提案する。
逆レンダリングフレームワークにおいて,MaterialGANは強力な素材として利用できることを示す。
携帯端末を用いたフラッシュ照明下で撮影された画像からSVBRDFを再構成する作業において,この枠組みを実証する。
論文 参考訳(メタデータ) (2020-09-30T21:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。