論文の概要: CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
- arxiv url: http://arxiv.org/abs/2411.04954v1
- Date: Thu, 07 Nov 2024 18:31:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:26.768010
- Title: CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
- Title(参考訳): CAD-MLLM:Multimodality-Conditioned CAD Generation with MLLM
- Authors: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao,
- Abstract要約: マルチモーダル入力に条件付きパラメトリックCADモデルを生成可能な最初のシステムであるCAD-MLLMを導入する。
先進的な大規模言語モデル (LLM) を用いて,多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
- 参考スコア(独自算出の注目度): 39.113795259823476
- License:
- Abstract: This paper aims to design a unified Computer-Aided Design (CAD) generation system that can easily generate CAD models based on the user's inputs in the form of textual description, images, point clouds, or even a combination of them. Towards this goal, we introduce the CAD-MLLM, the first system capable of generating parametric CAD models conditioned on the multimodal input. Specifically, within the CAD-MLLM framework, we leverage the command sequences of CAD models and then employ advanced large language models (LLMs) to align the feature space across these diverse multi-modalities data and CAD models' vectorized representations. To facilitate the model training, we design a comprehensive data construction and annotation pipeline that equips each CAD model with corresponding multimodal data. Our resulting dataset, named Omni-CAD, is the first multimodal CAD dataset that contains textual description, multi-view images, points, and command sequence for each CAD model. It contains approximately 450K instances and their CAD construction sequences. To thoroughly evaluate the quality of our generated CAD models, we go beyond current evaluation metrics that focus on reconstruction quality by introducing additional metrics that assess topology quality and surface enclosure extent. Extensive experimental results demonstrate that CAD-MLLM significantly outperforms existing conditional generative methods and remains highly robust to noises and missing points. The project page and more visualizations can be found at: https://cad-mllm.github.io/
- Abstract(参考訳): 本稿では,ユーザ入力に基づいて,テキスト記述や画像,点雲,あるいはそれらを組み合わせてCADモデルを容易に生成可能な,統合型コンピュータ支援設計(CAD)生成システムを設計することを目的とする。
この目的に向けて,マルチモーダル入力に条件付きパラメトリックCADモデルを生成する最初のシステムCAD-MLLMを導入する。
具体的には、CAD-MLLMフレームワーク内でCADモデルのコマンドシーケンスを活用し、その後、高度な大規模言語モデル(LLM)を用いて、これらの多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。
モデル学習を容易にするため,CADモデルに対応するマルチモーダルデータと対応付ける包括的データ構築およびアノテーションパイプラインを設計する。
得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
約450KインスタンスとCAD構成シーケンスを含んでいる。
生成したCADモデルの品質を徹底的に評価するために、トポロジ品質と表面囲い範囲を評価する付加指標を導入することにより、再構築品質に重点を置く現在の評価指標を超越した。
大規模実験の結果,CAD-MLLMは既存の条件生成法を著しく上回り,ノイズや欠落点に対して頑健であることが明らかとなった。
プロジェクトページとさらなる視覚化は、https://cad-mllm.github.io/で見ることができる。
関連論文リスト
- Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches [24.239470848849418]
CAD(Parametric Computer-Aided Design)は、現代の機械設計の中心である。
CAD生成のためのエンド・ツー・エンドの視覚言語モデルであるCadVLMを提案する。
論文 参考訳(メタデータ) (2024-09-26T01:22:29Z) - PS-CAD: Local Geometry Guidance via Prompting and Selection for CAD Reconstruction [86.726941702182]
再構成ネットワークPS-CADに幾何学的ガイダンスを導入する。
我々は、現在の再構成が点雲としての完備モデルと異なる曲面の幾何学を提供する。
第二に、幾何学的解析を用いて、候補面に対応する平面的プロンプトの集合を抽出する。
論文 参考訳(メタデータ) (2024-05-24T03:43:55Z) - ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models [0.7373617024876725]
本稿では,ContrastCAD という,CAD モデルを学習するための対照的な学習手法を提案する。
コントラストCADはCADモデルの構成シーケンス内の意味情報を効果的にキャプチャする。
また,RRE法(Random Replace and Extrude)と呼ばれる新しいCADデータ拡張手法を提案し,モデルの学習性能を向上させる。
論文 参考訳(メタデータ) (2024-04-02T05:30:39Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z) - CADOps-Net: Jointly Learning CAD Operation Types and Steps from
Boundary-Representations [17.051792180335354]
本稿では,CADの動作タイプと異なるCAD動作ステップへの分解を共同で学習する,新しいディープニューラルネットワークCADOps-Netを提案する。
既存のデータセットと比較して、CC3D-Opsモデルの複雑さと多様性は、産業目的で使用されるものに近い。
論文 参考訳(メタデータ) (2022-08-22T19:12:20Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - DeepCAD: A Deep Generative Network for Computer-Aided Design Models [37.655225142981564]
形状をコンピュータ支援設計(CAD)操作のシーケンスとして記述した形状表現の3次元生成モデルについて述べる。
CAD操作と自然言語の類似性について,トランスフォーマーに基づくCAD生成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T03:29:18Z) - Fusion 360 Gallery: A Dataset and Environment for Programmatic CAD
Construction from Human Design Sequences [43.57844212541765]
簡単な言語で構成されたFusion 360 Galleryを紹介します。
また,CADプログラムの逐次構築をマルコフ決定プロセスとして公開するFusion 360 Gymという対話型環境を提案する。
論文 参考訳(メタデータ) (2020-10-05T23:18:21Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。