論文の概要: CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
- arxiv url: http://arxiv.org/abs/2411.04954v1
- Date: Thu, 07 Nov 2024 18:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:26.768010
- Title: CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
- Title(参考訳): CAD-MLLM:Multimodality-Conditioned CAD Generation with MLLM
- Authors: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao,
- Abstract要約: マルチモーダル入力に条件付きパラメトリックCADモデルを生成可能な最初のシステムであるCAD-MLLMを導入する。
先進的な大規模言語モデル (LLM) を用いて,多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
- 参考スコア(独自算出の注目度): 39.113795259823476
- License:
- Abstract: This paper aims to design a unified Computer-Aided Design (CAD) generation system that can easily generate CAD models based on the user's inputs in the form of textual description, images, point clouds, or even a combination of them. Towards this goal, we introduce the CAD-MLLM, the first system capable of generating parametric CAD models conditioned on the multimodal input. Specifically, within the CAD-MLLM framework, we leverage the command sequences of CAD models and then employ advanced large language models (LLMs) to align the feature space across these diverse multi-modalities data and CAD models' vectorized representations. To facilitate the model training, we design a comprehensive data construction and annotation pipeline that equips each CAD model with corresponding multimodal data. Our resulting dataset, named Omni-CAD, is the first multimodal CAD dataset that contains textual description, multi-view images, points, and command sequence for each CAD model. It contains approximately 450K instances and their CAD construction sequences. To thoroughly evaluate the quality of our generated CAD models, we go beyond current evaluation metrics that focus on reconstruction quality by introducing additional metrics that assess topology quality and surface enclosure extent. Extensive experimental results demonstrate that CAD-MLLM significantly outperforms existing conditional generative methods and remains highly robust to noises and missing points. The project page and more visualizations can be found at: https://cad-mllm.github.io/
- Abstract(参考訳): 本稿では,ユーザ入力に基づいて,テキスト記述や画像,点雲,あるいはそれらを組み合わせてCADモデルを容易に生成可能な,統合型コンピュータ支援設計(CAD)生成システムを設計することを目的とする。
この目的に向けて,マルチモーダル入力に条件付きパラメトリックCADモデルを生成する最初のシステムCAD-MLLMを導入する。
具体的には、CAD-MLLMフレームワーク内でCADモデルのコマンドシーケンスを活用し、その後、高度な大規模言語モデル(LLM)を用いて、これらの多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
モデル学習を容易にするため,CADモデルに対応するマルチモーダルデータと対応付ける包括的データ構築およびアノテーションパイプラインを設計する。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
約450KインスタンスとCAD構成シーケンスを含んでいる。
生成したCADモデルの品質を徹底的に評価するために、トポロジ品質と表面囲い範囲を評価する付加指標を導入することにより、再構築品質に重点を置く現在の評価指標を超越した。
大規模実験の結果,CAD-MLLMは既存の条件生成法を著しく上回り,ノイズや欠落点に対して頑健であることが明らかとなった。
プロジェクトページとさらなる視覚化は、https://cad-mllm.github.io/で見ることができる。
関連論文リスト
- CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers? [12.5472026454031]
CAD-Assistantは、FreeCADソフトウェアを備えたPythonインタプリタ上で反復的に実行されるアクションを生成することで、マルチモーダルなユーザクエリに対処する。
我々は、Pythonライブラリ、FreeCAD Python APIのモジュール、有用なルーチン、レンダリング機能、その他の特殊なモジュールを含む、幅広いCAD固有のツールを検討します。
論文 参考訳(メタデータ) (2024-12-18T12:57:56Z) - BlenderLLM: Training Large Language Models for Computer-Aided Design with Self-improvement [45.19076032719869]
我々は,大規模言語モデル(LLM)をCAD(Computer-Aided Design)で訓練するフレームワークであるBlenderLLMを提案する。
以上の結果から,既存のモデルではCADスクリプトの正確な生成に重大な制限があることが明らかとなった。
命令ベースの微調整と反復的な自己改善によって、BlenderLLMはCADスクリプト生成の機能と精度の両方においてこれらのモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-16T14:34:02Z) - Text2CAD: Text to 3D CAD Generation via Technical Drawings [45.3611544056261]
Text2CADは、生成プロセスを自動化するために調整された安定した拡散モデルを利用する新しいフレームワークである。
テキスト2CADは,高品質な3次元CADモデルに正確に変換された技術図面を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-11-09T15:12:06Z) - FlexCAD: Unified and Versatile Controllable CAD Generation with Fine-tuned Large Language Models [22.010338370150738]
大規模言語モデル(LLM)を微調整した統合モデルFlexCADを提案する。
我々はCADモデルを構造化テキストとして表現し、各階層をテキストトークンのシーケンスとして抽象化する。
推論中、ユーザの意図をCADテキストに変換し、ユーザが変更したい部分をマスクトークンで置き換える。
論文 参考訳(メタデータ) (2024-11-05T05:45:26Z) - Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - PS-CAD: Local Geometry Guidance via Prompting and Selection for CAD Reconstruction [86.726941702182]
再構成ネットワークPS-CADに幾何学的ガイダンスを導入する。
我々は、現在の再構成が点雲としての完備モデルと異なる曲面の幾何学を提供する。
第二に、幾何学的解析を用いて、候補面に対応する平面的プロンプトの集合を抽出する。
論文 参考訳(メタデータ) (2024-05-24T03:43:55Z) - ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models [0.7373617024876725]
本稿では,ContrastCAD という,CAD モデルを学習するための対照的な学習手法を提案する。
コントラストCADはCADモデルの構成シーケンス内の意味情報を効果的にキャプチャする。
また,RRE法(Random Replace and Extrude)と呼ばれる新しいCADデータ拡張手法を提案し,モデルの学習性能を向上させる。
論文 参考訳(メタデータ) (2024-04-02T05:30:39Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。