論文の概要: MaterialPicker: Multi-Modal Material Generation with Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2412.03225v2
- Date: Fri, 06 Dec 2024 05:24:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 12:36:29.546849
- Title: MaterialPicker: Multi-Modal Material Generation with Diffusion Transformers
- Title(参考訳): MaterialPicker:拡散変圧器を用いた多モード材料生成
- Authors: Xiaohe Ma, Valentin Deschaintre, Miloš Hašan, Fujun Luan, Kun Zhou, Hongzhi Wu, Yiwei Hu,
- Abstract要約: 本稿では,Diffusion Transformer (DiT) アーキテクチャを利用したマルチモーダル・マテリアル・ジェネレータを提案する。
本手法では, 被捕獲面が歪んだ場合でも, 試料の画像量に基づいて材料を生成することができる。
従来よりも多種多様な材料生成と歪み補正が可能であることを示す。
- 参考スコア(独自算出の注目度): 27.007661861644376
- License:
- Abstract: High-quality material generation is key for virtual environment authoring and inverse rendering. We propose MaterialPicker, a multi-modal material generator leveraging a Diffusion Transformer (DiT) architecture, improving and simplifying the creation of high-quality materials from text prompts and/or photographs. Our method can generate a material based on an image crop of a material sample, even if the captured surface is distorted, viewed at an angle or partially occluded, as is often the case in photographs of natural scenes. We further allow the user to specify a text prompt to provide additional guidance for the generation. We finetune a pre-trained DiT-based video generator into a material generator, where each material map is treated as a frame in a video sequence. We evaluate our approach both quantitatively and qualitatively and show that it enables more diverse material generation and better distortion correction than previous work.
- Abstract(参考訳): 高品質な材料生成は仮想環境のオーサリングと逆レンダリングの鍵となる。
本稿では,Diffusion Transformer (DiT) アーキテクチャを利用した多モード材料ジェネレータであるMaterialPickerを提案する。
本手法は, 天然のシーンの写真の場合のように, 被写体表面が歪んだり, 角度で視認されたり, 部分的に隠蔽されたりしても, 試料の画像量に基づいて材料を生成することができる。
さらに、ユーザがテキストプロンプトを指定して、生成のための追加のガイダンスを提供するようにします。
トレーニング済みのDiTベースのビデオジェネレータを材料ジェネレータに微調整し、各材料マップをビデオシーケンスのフレームとして扱う。
我々は,本手法を定量的かつ質的に評価し,従来よりも多種多様な材料生成と歪み補正が可能であることを示す。
関連論文リスト
- TexPro: Text-guided PBR Texturing with Procedural Material Modeling [23.8905505397344]
TexProはテキストプロンプトを入力した3Dメッシュの高忠実度材料生成のための新しい手法である。
我々はまず,最新のテキスト・画像モデルを用いて入力されたテキスト・プロンプトからマルチビュー・リファレンス・イメージを生成する。
我々は最近の異なる手続き材料を用いたレンダリングに基づく最適化によりテクスチャマップを導出する。
論文 参考訳(メタデータ) (2024-10-21T11:10:07Z) - MaPa: Text-driven Photorealistic Material Painting for 3D Shapes [80.66880375862628]
本稿では,テキスト記述から3次元メッシュの材料を作成することを目的とする。
テクスチャマップを合成する既存の方法とは異なり、我々はセグメントワイドな手続き的な材料グラフを生成することを提案する。
我々のフレームワークは高品質なレンダリングをサポートし、編集にかなりの柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-26T17:54:38Z) - MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Alchemist: Parametric Control of Material Properties with Diffusion
Models [51.63031820280475]
本手法は,フォトリアリズムで知られているテキスト・イメージ・モデルの生成先行に乗じる。
我々は,NeRFの材料化へのモデルの適用の可能性を示す。
論文 参考訳(メタデータ) (2023-12-05T18:58:26Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - MatFuse: Controllable Material Generation with Diffusion Models [10.993516790237503]
MatFuseは3D素材の作成と編集に拡散モデルの生成力を利用する統一的なアプローチである。
本手法は,カラーパレット,スケッチ,テキスト,画像など,複数のコンディショニング源を統合し,創造性を向上する。
複数の条件設定下でのMatFuseの有効性を実証し,材料編集の可能性を探る。
論文 参考訳(メタデータ) (2023-08-22T12:54:48Z) - PhotoMat: A Material Generator Learned from Single Flash Photos [37.42765147463852]
既存の材料生成モデルは、合成データにのみ訓練されている。
私たちは、携帯電話カメラとフラッシュで撮影したサンプルの実際の写真に特化して訓練された、最初の素材ジェネレータPhotoMatを提案する。
生成した材料は、従来の合成データで訓練された材料ジェネレータよりも視覚的品質がよいことを示す。
論文 参考訳(メタデータ) (2023-05-20T22:27:41Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - One-shot recognition of any material anywhere using contrastive learning
with physics-based rendering [0.0]
材料とテクスチャ間の類似点と遷移点をコンピュータビジョンで認識するための合成データセットMateSim、ベンチマーク、および方法を提案する。
食材を視覚的に認識することは、調理中に食品を調べること、農業、化学、工業製品を調べることなど、あらゆることに不可欠である。
論文 参考訳(メタデータ) (2022-12-01T16:49:53Z) - MaterialGAN: Reflectance Capture using a Generative SVBRDF Model [33.578080406338266]
本稿では,StyleGAN2をベースとした深層生成畳み込みネットワークであるMaterialGANを提案する。
逆レンダリングフレームワークにおいて,MaterialGANは強力な素材として利用できることを示す。
携帯端末を用いたフラッシュ照明下で撮影された画像からSVBRDFを再構成する作業において,この枠組みを実証する。
論文 参考訳(メタデータ) (2020-09-30T21:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。