Fugu-MT 論文翻訳(概要): DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance

論文の概要: DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance

arxiv url: http://arxiv.org/abs/2404.14676v2
Date: Mon, 1 Jul 2024 14:43:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-02 14:29:42.334896
Title: DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance
Title（参考訳）: DreamPBR:マルチモーダル誘導による高分解能SVBRDFのテキスト駆動生成
Authors: Linxuan Xin, Zheng Zhang, Jinfu Wei, Wei Gao, Duan Gao,
Abstract要約: テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出するための,新しい拡散型生成フレームワークを提案する。多様な高品質なPBR素材生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力を統合することである。教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
参考スコア（独自算出の注目度）: 9.214785726215942
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior material creation methods had limitations in producing diverse results mainly because reconstruction-based methods relied on real-world measurements and generation-based methods were trained on relatively small material datasets. To address these challenges, we propose DreamPBR, a novel diffusion-based generative framework designed to create spatially-varying appearance properties guided by text and multi-modal controls, providing high controllability and diversity in material generation. Key to achieving diverse and high-quality PBR material generation lies in integrating the capabilities of recent large-scale vision-language models trained on billions of text-image pairs, along with material priors derived from hundreds of PBR material samples. We utilize a novel material Latent Diffusion Model (LDM) to establish the mapping between albedo maps and the corresponding latent space. The latent representation is then decoded into full SVBRDF parameter maps using a rendering-aware PBR decoder. Our method supports tileable generation through convolution with circular padding. Furthermore, we introduce a multi-modal guidance module, which includes pixel-aligned guidance, style image guidance, and 3D shape guidance, to enhance the control capabilities of the material LDM. We demonstrate the effectiveness of DreamPBR in material creation, showcasing its versatility and user-friendliness on a wide range of controllable generation and editing applications.
Abstract（参考訳）: 従来, 素材生成法は, 実世界の計測に頼っていた再構成法と, 比較的小さな資料データセットを用いて, 生成法を訓練したことから, 多様な結果を生み出すのに限界があった。これらの課題に対処するため,DreamPBRを提案する。DreamPBRは,テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出し,高制御性と物質生成の多様性を提供する。多様な高品質のPBR材料生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力と、数百のPBR材料サンプルから派生した材料先行性を統合することである。我々は,アルベドマップと対応する潜伏空間のマッピングを確立するために,新しい物質Latent Diffusion Model (LDM) を用いる。潜在表現は、レンダリング対応のPBRデコーダを使用して完全なSVBRDFパラメータマップにデコードされる。本手法は円パディングによる畳み込みによるタイル状発電を支援する。さらに,LDMの制御能力を高めるために,画素アライメントガイダンス,スタイルイメージガイダンス,3次元形状ガイダンスを含むマルチモーダルガイダンスモジュールを導入する。教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。

関連論文リスト

PacTure: Efficient PBR Texture Generation on Packed Views with Visual Autoregressive Models [73.4445896872942]
PacTureは、未ドメインの3Dメッシュから物理ベースのレンダリング(PBR)素材テクスチャを生成するためのフレームワークである。ビューパッキング(View Packing)は、ビュー毎の有効解像度を高める新しいテクニックである。
論文参考訳（メタデータ） (2025-05-28T14:23:30Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
IntrinsiX: High-Quality PBR Generation using Image Priors [49.90007540430264]
IntrinsiXはテキスト記述から高品質な内在画像を生成する新しい手法である。シーンライティングを内蔵した既存のテキスト・ツー・イメージモデルとは対照的に,本手法では物理ベースのレンダリング(PBR)マップを推定する。
論文参考訳（メタデータ） (2025-04-01T17:47:48Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
MuMA: 3D PBR Texturing via Multi-Channel Multi-View Generation and Agentic Post-Processing [35.58100830471395]
3D生成の現在の手法は、大きなチャネルをベースとした物理レンダリングでは依然として不足している。マルチチャンネルマルチビュー生成とエージェント後処理による3次元手法 MuMA を提案する。
論文参考訳（メタデータ） (2025-03-24T09:06:33Z)
PBR3DGen: A VLM-guided Mesh Generation with High-quality PBR Texture [9.265778497001843]
高品質なPBR材料を用いた2段階メッシュ生成法であるPBR3DGenを提案する。視覚言語モデル(VLM)を用いて多視点拡散を誘導し,反射金属材料の空間分布と特性を正確に把握する。我々の復元モデルはPBR材料で高品質なメッシュを再構築する。
論文参考訳（メタデータ） (2025-03-14T13:11:19Z)
MaterialMVP: Illumination-Invariant Material Generation via Multi-view PBR Diffusion [37.596740171045845]
物理ベースのレンダリング(PBR)は現代のコンピュータグラフィックスの基盤となり、3Dシーンにおける現実的な物質表現と照明相互作用を可能にしている。本稿では3次元メッシュと画像プロンプトからPBRテクスチャを生成するための新しいエンド・ツー・エンドモデルを提案する。
論文参考訳（メタデータ） (2025-03-13T11:57:30Z)
Pandora3D: A Comprehensive Framework for High-Quality 3D Shape and Texture Generation [56.862552362223425]
本稿では,多様な入力プロンプトから高品質な3次元形状とテクスチャを生成するための包括的枠組みを提案する。フレームワークは3次元形状生成とテクスチャ生成で構成されている。本報告では,フレームワークの改良と拡張に向けたシステムアーキテクチャ,実験結果,今後の方向性について述べる。
論文参考訳（メタデータ） (2025-02-20T04:22:30Z)
MCMat: Multiview-Consistent and Physically Accurate PBR Material Generation [30.69364954074992]
UNetベースの拡散モデルにより、マルチビュー物理レンダリングPBRマップを生成するが、マルチビューの不整合、いくつかの3Dメソッドは、UVマップを直接生成する。そこで本研究では,PBR素材を特徴視する参照ビューを生成するために,特殊設計のTransformer DiDiモデルの両方を用いてPBR材料を生成することを提案する。
論文参考訳（メタデータ） (2024-12-18T18:45:35Z)
GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文参考訳（メタデータ） (2024-11-12T18:59:32Z)
DreamPolish: Domain Score Distillation With Progressive Geometry Generation [66.94803919328815]
本稿では,高精細な幾何学と高品質なテクスチャの創出に優れたテキスト・ツー・3D生成モデルであるDreamPolishを紹介する。幾何構成フェーズでは, 合成過程の安定性を高めるために, 複数のニューラル表現を利用する。テクスチャ生成フェーズでは、そのような領域に向けて神経表現を導くために、新しいスコア蒸留、すなわちドメインスコア蒸留(DSD)を導入する。
論文参考訳（メタデータ） (2024-11-03T15:15:01Z)
Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control [1.8692054990918074]
協調制御は、通常のバンプマップを含むPBR画像の確率分布を直接モデル化する。本稿では,このモデルをマルチビューで一貫した設計決定について論じ,アブレーション研究におけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2024-10-09T15:21:46Z)
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。 3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文参考訳（メタデータ） (2024-09-19T17:59:06Z)
StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning [2.037819652873519]
本稿では,フォトリアリスティック物理ベースレンダリング(PBR)材料を生成する新しいアプローチであるStableMaterialsを紹介する。本手法は,既存の大規模画像生成モデルから知識を抽出するために,逆行訓練を用いる。拡散ステップの少ない視覚的アーティファクトを除去する新しいタイルビリティ手法を提案する。
論文参考訳（メタデータ） (2024-06-13T16:29:46Z)
Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文参考訳（メタデータ） (2024-04-28T04:05:10Z)
ReflectanceFusion: Diffusion-based text to SVBRDF Generation [12.5036873986483]
テキスト記述から高忠実なSVBRDFマップを生成することができる新しいニューラルテキスト・ツー・テクスチャモデルであるReflectance Diffusionを導入する。提案手法は2つのモジュールからなるタンデムニューラルアプローチを利用して,空間的に変化する反射率の分布を正確にモデル化する。
論文参考訳（メタデータ） (2024-04-25T15:43:33Z)
MAP-Elites with Transverse Assessment for Multimodal Problems in Creative Domains [2.7869568828212175]
品質多様性の進化を用いたマルチモーダルな創造的タスクを扱う新しい手法を提案する。我々の貢献は、MAP-Elitesアルゴリズム、MAP-Elites with Transverse Assessment (MEliTA)のバリエーションである。 MeliTAは、アーティファクトのモダリティを分離し、エリート間のクロスポーリングを促進する。
論文参考訳（メタデータ） (2024-03-11T21:50:22Z)
VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。 3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文参考訳（メタデータ） (2023-12-18T18:59:05Z)
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation [101.2317840114147]
We present UniDream, a text-to-3D generation framework by integration priors。提案手法は,(1)アルベド正規配位型多視点拡散・再構成モデルを得るための2相学習プロセス,(2)訓練された再構成・拡散モデルを用いたスコア蒸留サンプル(SDS)に基づく幾何およびアルベドテクスチャのプログレッシブ生成手順,(3)安定拡散モデルに基づく固定アルベドを保ちながらPBR生成を確定するSDSの革新的な応用,の3つからなる。
論文参考訳（メタデータ） (2023-12-14T09:07:37Z)
MATLABER: Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR [29.96046140529936]
BRDF自動エンコーダ(textbfMATLABER)を用いたマテリアル・アウェア・テキスト・トゥ・3Dを提案する。我々は,この自動エンコーダを大規模実世界のBRDFコレクションで訓練し,その潜在空間の滑らかさを確保する。提案手法は, 現実的かつ一貫性のある物質を生成する上で, 既存の物質よりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T03:40:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。