論文の概要: Make-it-Real: Unleashing Large Multimodal Model's Ability for Painting 3D Objects with Realistic Materials
- arxiv url: http://arxiv.org/abs/2404.16829v1
- Date: Thu, 25 Apr 2024 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 12:51:20.178240
- Title: Make-it-Real: Unleashing Large Multimodal Model's Ability for Painting 3D Objects with Realistic Materials
- Title(参考訳): Make-it-Real:3Dオブジェクトをリアル素材で描ける大規模マルチモーダルモデル
- Authors: Ye Fang, Zeyi Sun, Tong Wu, Jiaqi Wang, Ziwei Liu, Gordon Wetzstein, Dahua Lin,
- Abstract要約: GPT-4Vは、材料を効果的に認識し、記述することができ、詳細な材料ライブラリを構築することができる。
そして、整合した材料を、新たなSVBRDF材料生成の基準として慎重に適用する。
Make-it-Realは、3Dコンテンツ作成ワークフローに合理化された統合を提供する。
- 参考スコア(独自算出の注目度): 108.59709545364395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Physically realistic materials are pivotal in augmenting the realism of 3D assets across various applications and lighting conditions. However, existing 3D assets and generative models often lack authentic material properties. Manual assignment of materials using graphic software is a tedious and time-consuming task. In this paper, we exploit advancements in Multimodal Large Language Models (MLLMs), particularly GPT-4V, to present a novel approach, Make-it-Real: 1) We demonstrate that GPT-4V can effectively recognize and describe materials, allowing the construction of a detailed material library. 2) Utilizing a combination of visual cues and hierarchical text prompts, GPT-4V precisely identifies and aligns materials with the corresponding components of 3D objects. 3) The correctly matched materials are then meticulously applied as reference for the new SVBRDF material generation according to the original diffuse map, significantly enhancing their visual authenticity. Make-it-Real offers a streamlined integration into the 3D content creation workflow, showcasing its utility as an essential tool for developers of 3D assets.
- Abstract(参考訳): 物理的に現実的な材料は、様々な用途や照明条件にまたがる3Dアセットの現実性を高める上で重要である。
しかし、既存の3Dアセットや生成モデルは、しばしば真の材料特性を欠いている。
グラフィックソフトウェアを用いた教材のマニュアル割り当ては面倒で時間を要する作業である。
本稿では,MLLM(Make-it-Real:Make-it-Real:)の進歩,特にGPT-4Vを利用した新しいアプローチを提案する。
1) GPT-4Vは, 資料を効果的に認識し, 記述し, 詳細な資料ライブラリの構築を可能にすることを実証する。
2)視覚的手がかりと階層的テキストプロンプトを組み合わせることで,GPT-4Vは材料を3Dオブジェクトの対応するコンポーネントと正確に識別・整合する。
3) 正マッチした材料は, 元の拡散マップに従って新たなSVBRDF材料生成の基準として細心の注意を払って適用され, 視覚的信頼性が著しく向上した。
Make-it-Realは、3Dコンテンツ作成ワークフローに合理化された統合を提供する。
関連論文リスト
- HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a
Single Image [94.11473240505534]
一つの画像から3Dコンテンツを作成するためのツールであるHyperDreamerを紹介します。
ユーザーは、結果の3Dコンテンツをフル範囲から閲覧、レンダリング、編集できないため、ポストジェネレーションの使用には十分である。
高分解能なテクスチャとユーザフレンドリーな編集が可能な領域認識素材のモデリングにおけるHyperDreamerの有効性を実証する。
論文 参考訳(メタデータ) (2023-12-07T18:58:09Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [50.57513088909881]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - MATLABER: Material-Aware Text-to-3D via LAtent BRDF auto-EncodeR [29.96046140529936]
BRDF自動エンコーダ(textbfMATLABER)を用いたマテリアル・アウェア・テキスト・トゥ・3Dを提案する。
我々は,この自動エンコーダを大規模実世界のBRDFコレクションで訓練し,その潜在空間の滑らかさを確保する。
提案手法は, 現実的かつ一貫性のある物質を生成する上で, 既存の物質よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T03:40:38Z) - Generating Parametric BRDFs from Natural Language Descriptions [1.1847636087764204]
記述的プロンプトから双方向反射分布関数を生成するモデルを開発した。
BRDFは、光と表面物質との相互作用を特徴付ける4次元の確率分布である。
我々のモデルは、教師なしスキームによってチューニングされる前に、まず半教師なしアプローチを用いて訓練される。
論文 参考訳(メタデータ) (2023-06-19T15:35:19Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。