論文の概要: MMPart: Harnessing Multi-Modal Large Language Models for Part-Aware 3D Generation
- arxiv url: http://arxiv.org/abs/2509.16768v1
- Date: Sat, 20 Sep 2025 18:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.965736
- Title: MMPart: Harnessing Multi-Modal Large Language Models for Part-Aware 3D Generation
- Title(参考訳): MMPart:パートアウェアな3D生成のためのマルチモーダル大言語モデル
- Authors: Omid Bonakdar, Nasser Mozayani,
- Abstract要約: 単一画像から部分認識3Dモデルを生成する革新的なフレームワークMMPartを紹介する。
MMPartは、初期画像と前ステップのプロンプトに基づいて、各オブジェクトの分離画像を生成する。
再構成モデルは、これらの多視点画像を3次元モデルに変換する。
- 参考スコア(独自算出の注目度): 0.6445605125467574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative 3D modeling has advanced rapidly, driven by applications in VR/AR, metaverse, and robotics. However, most methods represent the target object as a closed mesh devoid of any structural information, limiting editing, animation, and semantic understanding. Part-aware 3D generation addresses this problem by decomposing objects into meaningful components, but existing pipelines face challenges: in existing methods, the user has no control over which objects are separated and how model imagine the occluded parts in isolation phase. In this paper, we introduce MMPart, an innovative framework for generating part-aware 3D models from a single image. We first use a VLM to generate a set of prompts based on the input image and user descriptions. In the next step, a generative model generates isolated images of each object based on the initial image and the previous step's prompts as supervisor (which control the pose and guide model how imagine previously occluded areas). Each of those images then enters the multi-view generation stage, where a number of consistent images from different views are generated. Finally, a reconstruction model converts each of these multi-view images into a 3D model.
- Abstract(参考訳): 生成3Dモデリングは、VR/AR、メタバース、ロボット工学の応用によって急速に進歩している。
しかしながら、ほとんどのメソッドは、対象のオブジェクトをいかなる構造情報も含まないクローズドメッシュとして表現し、編集、アニメーション、セマンティックな理解を制限する。
既存のメソッドでは、ユーザは、どのオブジェクトが分離されているか、そしてモデルが、隔離されたパーツを分離したフェーズでどのように想像するかを制御できません。
本稿では,単一画像から部分認識3Dモデルを生成する革新的なフレームワークMMPartを紹介する。
入力画像とユーザ記述に基づいて,まずVLMを用いて一連のプロンプトを生成する。
次のステップでは、生成モデルが初期画像に基づいて各オブジェクトの孤立した画像を生成し、前ステップのプロンプトをスーパーバイザ(ポーズとガイドモデルを制御することで、以前無視された領域を想像する方法)として生成する。
それぞれの画像がマルチビュー生成ステージに入り、異なるビューからの一貫性のある画像が生成される。
最後に、再構成モデルにより、これらの多視点画像を3次元モデルに変換する。
関連論文リスト
- DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - CMD: Controllable Multiview Diffusion for 3D Editing and Progressive Generation [58.46364872103992]
入力画像から3Dモデルを生成するとともに、3Dモデルの各コンポーネントのフレキシブルな局所的編集を可能にするCMDと呼ばれる新しい手法を提案する。
CMDでは、3D生成を条件付き多視点拡散モデルとして定式化し、既存のまたは既知の部分を条件として取り、編集または追加されたコンポーネントを生成する。
論文 参考訳(メタデータ) (2025-05-11T14:54:26Z) - PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models [63.1432721793683]
テキスト,画像,構造化されていない3Dオブジェクトから意味のある部分からなる3Dオブジェクトを生成する新しいアプローチであるPartGenを紹介する。
提案手法は, 生成された実物および実物の3次元資産に対して評価し, セグメンテーションおよび部分抽出ベースラインを大きなマージンで上回っていることを示す。
論文 参考訳(メタデータ) (2024-12-24T18:59:43Z) - Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。