論文の概要: MuMA: 3D PBR Texturing via Multi-Channel Multi-View Generation and Agentic Post-Processing
- arxiv url: http://arxiv.org/abs/2503.18461v1
- Date: Mon, 24 Mar 2025 09:06:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:57.343839
- Title: MuMA: 3D PBR Texturing via Multi-Channel Multi-View Generation and Agentic Post-Processing
- Title(参考訳): MuMA:マルチチャネルマルチビュー生成とエージェント後処理による3次元PBRテクスチャ
- Authors: Lingting Zhu, Jingrui Ye, Runze Zhang, Zeyu Hu, Yingda Yin, Lanjiong Li, Jinnan Chen, Shengju Qian, Xin Wang, Qingmin Liao, Lequan Yu,
- Abstract要約: 3D生成の現在の手法は、大きなチャネルをベースとした物理レンダリングでは依然として不足している。
マルチチャンネルマルチビュー生成とエージェント後処理による3次元手法 MuMA を提案する。
- 参考スコア(独自算出の注目度): 35.58100830471395
- License:
- Abstract: Current methods for 3D generation still fall short in physically based rendering (PBR) texturing, primarily due to limited data and challenges in modeling multi-channel materials. In this work, we propose MuMA, a method for 3D PBR texturing through Multi-channel Multi-view generation and Agentic post-processing. Our approach features two key innovations: 1) We opt to model shaded and albedo appearance channels, where the shaded channels enables the integration intrinsic decomposition modules for material properties. 2) Leveraging multimodal large language models, we emulate artists' techniques for material assessment and selection. Experiments demonstrate that MuMA achieves superior results in visual quality and material fidelity compared to existing methods.
- Abstract(参考訳): 物理ベースのレンダリング(PBR)のテクスチャでは、現在の3D生成手法は依然として不足している。
本研究では,マルチチャンネルマルチビュー生成とエージェント後処理による3次元PBRテクスチャ作成手法であるMuMAを提案する。
このアプローチには2つの重要なイノベーションがあります。
1) 遮蔽チャネルとアルベド外観チャネルをモデル化することを選択し, 遮蔽チャネルは材料特性に対する内在分解モジュールの統合を可能にする。
2) マルチモーダルな大言語モデルを用いて, 材料評価と選択のためのアーティストの技法をエミュレートする。
実験により, MuMAは既存の方法と比較して, 視覚的品質や素材の忠実度において優れた結果が得られることが示された。
関連論文リスト
- 3DEnhancer: Consistent Multi-View Diffusion for 3D Enhancement [66.8116563135326]
本稿では,多視点遅延拡散モデルを用いて,多視点一貫性を維持しながら粗い3次元入力を強化する3DEnhancerを提案する。
既存のビデオベースアプローチとは異なり、我々のモデルは多様な視角のコヒーレンスを改善したシームレスなマルチビュー拡張をサポートする。
論文 参考訳(メタデータ) (2024-12-24T17:36:34Z) - MCMat: Multiview-Consistent and Physically Accurate PBR Material Generation [30.69364954074992]
UNetベースの拡散モデルにより、マルチビュー物理レンダリングPBRマップを生成するが、マルチビューの不整合、いくつかの3Dメソッドは、UVマップを直接生成する。
そこで本研究では,PBR素材を特徴視する参照ビューを生成するために,特殊設計のTransformer DiDiモデルの両方を用いてPBR材料を生成することを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:45:35Z) - Generative Object Insertion in Gaussian Splatting with a Multi-View Diffusion Model [15.936267489962122]
ガウス散乱で表される3次元コンテンツに物体を挿入する新しい手法を提案する。
提案手法では,事前学習した安定した映像拡散モデルに基づいて,MVInpainterと呼ばれる多視点拡散モデルを導入する。
MVInpainterの内部では、制御されたより予測可能なマルチビュー生成を可能にする制御ネットベースの条件付きインジェクションモジュールが組み込まれている。
論文 参考訳(メタデータ) (2024-09-25T13:52:50Z) - 3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion [86.25111098482537]
3DTopia-XLは,既存の手法の限界を克服するために設計された,スケーラブルなネイティブな3D生成モデルである。
3DTopia-XLは、新しいプリミティブベースの3D表現であるPrimXを利用して、詳細な形状、アルベド、マテリアルフィールドをコンパクトなテンソル形式にエンコードする。
その上で, 1) 原始的パッチ圧縮, 2) および潜在的原始的拡散を含む拡散変換器(DiT)に基づく生成フレームワークを提案する。
我々は,3DTopia-XLが既存の手法よりも高い性能を示すことを示すために,広範囲な定性的,定量的な実験を行った。
論文 参考訳(メタデータ) (2024-09-19T17:59:06Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - DreamPBR: Text-driven Generation of High-resolution SVBRDF with Multi-modal Guidance [9.214785726215942]
テキストとマルチモーダル制御によって誘導される空間的に変化する外観特性を創出するための,新しい拡散型生成フレームワークを提案する。
多様な高品質なPBR素材生成を実現するための鍵は、数十億のテキストイメージ対で訓練された最近の大規模視覚言語モデルの能力を統合することである。
教材作成におけるDreamPBRの有効性を実証し,その汎用性とユーザフレンドリさを幅広い制御可能な生成・編集アプリケーション上で示す。
論文 参考訳(メタデータ) (2024-04-23T02:04:53Z) - InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - VideoMV: Consistent Multi-View Generation Based on Large Video Generative Model [34.35449902855767]
基本的な2つの質問は、トレーニングに使用するデータと、マルチビューの一貫性を確保する方法です。
本稿では,市販のビデオ生成モデルから微調整した,密集した一貫したマルチビュー生成モデルを提案する。
我々のアプローチは24の濃密なビューを生成し、最先端のアプローチよりもはるかに高速にトレーニングに収束する。
論文 参考訳(メタデータ) (2024-03-18T17:48:15Z) - Breathing New Life into 3D Assets with Generative Repainting [74.80184575267106]
拡散ベースのテキスト・ツー・イメージ・モデルは、ビジョン・コミュニティ、アーティスト、コンテンツ・クリエーターから大きな注目を集めた。
近年の研究では、拡散モデルとニューラルネットワークの絡み合いを利用した様々なパイプラインが提案されている。
予備訓練された2次元拡散モデルと標準3次元ニューラルラジアンスフィールドのパワーを独立したスタンドアロンツールとして検討する。
我々のパイプラインはテクスチャ化されたメッシュや無テクスチャのメッシュのような、レガシなレンダリング可能な幾何学を受け入れ、2D生成の洗練と3D整合性強化ツール間の相互作用をオーケストレーションします。
論文 参考訳(メタデータ) (2023-09-15T16:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。