論文の概要: MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
- arxiv url: http://arxiv.org/abs/2508.14879v1
- Date: Wed, 20 Aug 2025 17:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.54175
- Title: MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds
- Title(参考訳): MeshCoder: ポイントクラウドからLLMベースの構造化メッシュコード生成
- Authors: Bingquan Dai, Li Ray Luo, Qihong Tang, Jie Wang, Xinyu Lian, Hao Xu, Minghan Qin, Xudong Xu, Bo Dai, Haoqian Wang, Zhaoyang Lyu, Jiangmiao Pang,
- Abstract要約: MeshCoderは、ポイントクラウドから編集可能なBlender Pythonスクリプトに複雑な3Dオブジェクトを再構築する新しいフレームワークである。
我々は、3Dポイントクラウドを実行可能なBlender Pythonスクリプトに変換するマルチモーダルな大規模言語モデル(LLM)を訓練する。
本手法は形状と符号の再構成作業において優れた性能を実現し,直感的な幾何学的および位相的編集を容易にする。
- 参考スコア(独自算出の注目度): 30.660959581200913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing 3D objects into editable programs is pivotal for applications like reverse engineering and shape editing. However, existing methods often rely on limited domain-specific languages (DSLs) and small-scale datasets, restricting their ability to model complex geometries and structures. To address these challenges, we introduce MeshCoder, a novel framework that reconstructs complex 3D objects from point clouds into editable Blender Python scripts. We develop a comprehensive set of expressive Blender Python APIs capable of synthesizing intricate geometries. Leveraging these APIs, we construct a large-scale paired object-code dataset, where the code for each object is decomposed into distinct semantic parts. Subsequently, we train a multimodal large language model (LLM) that translates 3D point cloud into executable Blender Python scripts. Our approach not only achieves superior performance in shape-to-code reconstruction tasks but also facilitates intuitive geometric and topological editing through convenient code modifications. Furthermore, our code-based representation enhances the reasoning capabilities of LLMs in 3D shape understanding tasks. Together, these contributions establish MeshCoder as a powerful and flexible solution for programmatic 3D shape reconstruction and understanding.
- Abstract(参考訳): 3Dオブジェクトを編集可能なプログラムに再構成することは、リバースエンジニアリングや形状編集といったアプリケーションにとって重要なことです。
しかし、既存のメソッドは制限されたドメイン固有言語(DSL)や小規模なデータセットに依存し、複雑なジオメトリや構造をモデル化する能力を制限することが多い。
これらの課題に対処するために、ポイントクラウドから編集可能なBlender Pythonスクリプトに複雑な3Dオブジェクトを再構築する新しいフレームワークであるMeshCoderを紹介します。
複雑なジオメトリを合成できる表現型Blender Python APIを包括的に開発する。
これらのAPIを活用することで、大規模なペア化されたオブジェクトコードデータセットを構築し、各オブジェクトのコードが別々のセマンティック部分に分割される。
その後、3Dポイントクラウドを実行可能なBlender Pythonスクリプトに変換するマルチモーダルな大規模言語モデル(LLM)をトレーニングする。
提案手法は,形状と符号の再構成作業における優れた性能を実現するだけでなく,便利なコード修正による直観的幾何学的および位相的編集を容易にする。
さらに、コードに基づく表現により、3次元形状理解タスクにおけるLCMの推論能力が向上する。
これらのコントリビューションによって、MeshCoderは、プログラムによる3D形状の再構築と理解のための強力で柔軟なソリューションとして確立される。
関連論文リスト
- LL3M: Large Language 3D Modelers [18.23329430829059]
LL3Mは,解釈可能なPythonコードをBlenderで記述することで3Dアセットを生成するシステムである。
形状生成をコード記述タスクとして再構成し,モジュール性,編集性,アーティストBlenderとの連携を実現する。
本実験では,3次元アセット生成のための生成的・解釈可能な媒体としてのコードの有用性を示す。
論文 参考訳(メタデータ) (2025-08-11T17:48:02Z) - MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh [79.20802127426003]
MeshLLMは、大規模言語モデル(LLM)を活用して、テキストシリアライズされた3Dメッシュを理解して生成するフレームワークである。
我々は3次元メッシュを構造的に意味のあるサブユニットに分割するプリミティブ・メシュ分解戦略を導入する。
実験により、MeshLLMはメッシュ生成の品質と形状理解の両方において最先端のLLaMA-Meshよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-02T07:37:37Z) - Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Don't Mesh with Me: Generating Constructive Solid Geometry Instead of Meshes by Fine-Tuning a Code-Generation LLM [3.925328332747599]
本稿では,表面構造型固体形状(CSG)を生成する3次元幾何生成のための新しいアプローチを提案する。
まず,境界表現幾何学(BREP)をCSGベースのPythonスクリプトに変換することで,コードスクリプトとして表現される3次元機械部品のデータセットを作成する。
次に、GPT-4を用いて自然言語でアノテーションを作成し、その結果のデータセットをコード生成LLMの微調整に使用する。
論文 参考訳(メタデータ) (2024-11-22T15:29:12Z) - Reason3D: Searching and Reasoning 3D Segmentation via Large Language Model [108.35777542298224]
Reason3Dは、ポイントクラウドデータとテキストプロンプトを処理し、テキスト応答とセグメンテーションマスクを生成する。
被写体を広範に分割する粗大なアプローチを用いた階層型マスクデコーダを提案する。
論文 参考訳(メタデータ) (2024-05-27T17:59:41Z) - PyTorchGeoNodes: Enabling Differentiable Shape Programs for 3D Shape Reconstruction [11.9747147315069]
PyTorchGeoNodesは,解釈可能な形状プログラムを用いて3次元オブジェクトを再構成するための識別可能なモジュールである。
PyTorchGeoNodesと遺伝的アルゴリズムの組み合わせは、離散型プログラムパラメータと連続型プログラムパラメータの両方を最適化する方法であることを示す。
論文 参考訳(メタデータ) (2024-04-16T14:43:33Z) - ShapeLLM: Universal 3D Object Understanding for Embodied Interaction [37.0434133128805]
本稿では,3次元マルチモーダル大言語モデル(LLM)を具体化して構築したShapeLLMについて述べる。
ShapeLLMはReConをReCon++に拡張することで改良された3Dエンコーダの上に構築されている。
ShapeLLMは、構築された命令追従データに基づいてトレーニングされ、新しい人為的なベンチマークである3D MM-Vetでテストされる。
論文 参考訳(メタデータ) (2024-02-27T18:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。