論文の概要: Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2511.13647v1
- Date: Mon, 17 Nov 2025 17:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 18:52:09.654073
- Title: Part-X-MLLM: Part-aware 3D Multimodal Large Language Model
- Title(参考訳): Part-X-MLLM:Part-Aware 3D Multimodal Large Language Model
- Authors: Chunshi Wang, Junliang Ye, Yunhan Yang, Yang Li, Zizhuo Lin, Jun Zhu, Zhuo Chen, Yawei Luo, Chunchao Guo,
- Abstract要約: Part-X-MLLMは、ネイティブな3Dマルチモーダルな大規模言語モデルである。
構造化された実行可能な文法でプログラムとして定式化することで、多様な3Dタスクを統一する。
- 参考スコア(独自算出の注目度): 35.75184591224847
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce Part-X-MLLM, a native 3D multimodal large language model that unifies diverse 3D tasks by formulating them as programs in a structured, executable grammar. Given an RGB point cloud and a natural language prompt, our model autoregressively generates a single, coherent token sequence encoding part-level bounding boxes, semantic descriptions, and edit commands. This structured output serves as a versatile interface to drive downstream geometry-aware modules for part-based generation and editing. By decoupling the symbolic planning from the geometric synthesis, our approach allows any compatible geometry engine to be controlled through a single, language-native frontend. We pre-train a dual-encoder architecture to disentangle structure from semantics and instruction-tune the model on a large-scale, part-centric dataset. Experiments demonstrate that our model excels at producing high-quality, structured plans, enabling state-of-the-art performance in grounded Q\&A, compositional generation, and localized editing through one unified interface. Project page: https://chunshi.wang/Part-X-MLLM/
- Abstract(参考訳): 本稿では,3次元マルチモーダルな言語モデルであるPart-X-MLLMについて紹介する。
RGBポイントクラウドと自然言語プロンプトが与えられた後、我々のモデルは、部分レベルのバウンディングボックス、セマンティック記述、およびコマンドをコードする単一のコヒーレントトークンシーケンスを自動回帰的に生成する。
この構造化された出力は、部分ベースの生成と編集のために下流の幾何認識モジュールを駆動するための多用途インタフェースとして機能する。
幾何学的合成から記号的計画を切り離すことにより、我々のアプローチは、任意の互換幾何エンジンを単一の言語固有のフロントエンドで制御することができる。
我々は,2つのエンコーダアーキテクチャを事前訓練し,構造を意味論から切り離し,大規模部分中心のデータセット上でモデルをチューニングする。
実験により,本モデルが高品質で構造化された計画の作成に優れており,基礎となるQ\&A,構成生成,一貫したインタフェースによる局所的な編集が実現可能であることが示された。
プロジェクトページ:https://chunshi.wang/Part-X-MLLM/
関連論文リスト
- PartSAM: A Scalable Promptable Part Segmentation Model Trained on Native 3D Data [47.60227259482637]
大規模3次元データに基づいてトレーニングされた最初のプロンプト可能なパートセグメンテーションモデルであるPartSAMを提案する。
PartSAMはエンコーダ・デコーダアーキテクチャを採用しており、三面体をベースとしたデュアルブランチ・エンコーダが空間的に構造化されたトークンを生成する。
大規模監視を実現するために,500万以上の3次元形状部品対をキュレートしたループ型アノテーションパイプラインを導入する。
論文 参考訳(メタデータ) (2025-09-26T06:52:35Z) - MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds [50.98900790623827]
MeshCoderは、ポイントクラウドから編集可能なBlender Pythonスクリプトに複雑な3Dオブジェクトを再構築する新しいフレームワークである。
我々は、3Dポイントクラウドを実行可能なBlender Pythonスクリプトに変換するマルチモーダルな大規模言語モデル(LLM)を訓練する。
本手法は形状と符号の再構成作業において優れた性能を実現し,直感的な幾何学的および位相的編集を容易にする。
論文 参考訳(メタデータ) (2025-08-20T17:50:15Z) - MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh [79.20802127426003]
MeshLLMは、大規模言語モデル(LLM)を活用して、テキストシリアライズされた3Dメッシュを理解して生成するフレームワークである。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
実験により、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-02T07:37:37Z) - OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion [31.767548415448957]
我々は,パートアウェアな3Dオブジェクト生成のための新しいフレームワークであるOmniPartを紹介する。
提案手法は,ユーザ定義部分の粒度,高精度なローカライゼーションをサポートし,多様な下流アプリケーションを実現する。
論文 参考訳(メタデータ) (2025-07-08T16:46:15Z) - Programmable-Room: Interactive Textured 3D Room Meshes Generation Empowered by Large Language Models [16.828694984680553]
Programmable-Roomは、自然言語命令を与えられた3Dルームメッシュをインタラクティブに生成し、編集するフレームワークである。
部屋のそれぞれの属性を正確に制御するために、難易度タスクを、部屋メッシュの可塑性3D座標の作成など、より単純なステップに分解する。
統合されたフレームワークで様々な分解タスクをサポートするため、ビジュアルプログラミング(VP)を取り入れる。
論文 参考訳(メタデータ) (2025-06-21T13:00:06Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Locally Adaptive Neural 3D Morphable Models [38.38400553022714]
本稿では、3Dメッシュの生成と操作を学習するフレームワークであるLocally Adaptive Morphable Model (LAMM)を紹介する。
非常に効率的な計算グラフにより、我々のネットワークは、以前の手法で必要とされるメモリのごく一部でトレーニングできる。
さらに、より高度な編集操作のためのプリミティブとして局所幾何学制御を活用し、微分関数のセットを示す。
論文 参考訳(メタデータ) (2024-01-05T18:28:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。