Fugu-MT 論文翻訳(概要): CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM

論文の概要: CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM

arxiv url: http://arxiv.org/abs/2411.04954v1
Date: Thu, 07 Nov 2024 18:31:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:45.488824
Title: CAD-MLLM: Unifying Multimodality-Conditioned CAD Generation With MLLM
Title（参考訳）: CAD-MLLM:Multimodality-Conditioned CAD Generation with MLLM
Authors: Jingwei Xu, Chenyu Wang, Zibo Zhao, Wen Liu, Yi Ma, Shenghua Gao,
Abstract要約: マルチモーダル入力に条件付きパラメトリックCADモデルを生成可能な最初のシステムであるCAD-MLLMを導入する。先進的な大規模言語モデル (LLM) を用いて,多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。
参考スコア（独自算出の注目度）: 39.113795259823476
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper aims to design a unified Computer-Aided Design (CAD) generation system that can easily generate CAD models based on the user's inputs in the form of textual description, images, point clouds, or even a combination of them. Towards this goal, we introduce the CAD-MLLM, the first system capable of generating parametric CAD models conditioned on the multimodal input. Specifically, within the CAD-MLLM framework, we leverage the command sequences of CAD models and then employ advanced large language models (LLMs) to align the feature space across these diverse multi-modalities data and CAD models' vectorized representations. To facilitate the model training, we design a comprehensive data construction and annotation pipeline that equips each CAD model with corresponding multimodal data. Our resulting dataset, named Omni-CAD, is the first multimodal CAD dataset that contains textual description, multi-view images, points, and command sequence for each CAD model. It contains approximately 450K instances and their CAD construction sequences. To thoroughly evaluate the quality of our generated CAD models, we go beyond current evaluation metrics that focus on reconstruction quality by introducing additional metrics that assess topology quality and surface enclosure extent. Extensive experimental results demonstrate that CAD-MLLM significantly outperforms existing conditional generative methods and remains highly robust to noises and missing points. The project page and more visualizations can be found at: https://cad-mllm.github.io/
Abstract（参考訳）: 本稿では,ユーザ入力に基づいて,テキスト記述や画像,点雲,あるいはそれらを組み合わせてCADモデルを容易に生成可能な,統合型コンピュータ支援設計(CAD)生成システムを設計することを目的とする。この目的に向けて,マルチモーダル入力に条件付きパラメトリックCADモデルを生成する最初のシステムCAD-MLLMを導入する。具体的には、CAD-MLLMフレームワーク内でCADモデルのコマンドシーケンスを活用し、その後、高度な大規模言語モデル(LLM)を用いて、これらの多様なマルチモーダルデータとCADモデルのベクトル化表現に特徴空間を整合させる。モデル学習を容易にするため,CADモデルに対応するマルチモーダルデータと対応付ける包括的データ構築およびアノテーションパイプラインを設計する。得られたデータセットはOmni-CADと呼ばれ、CADモデル毎にテキスト記述、多視点画像、ポイント、コマンドシーケンスを含む最初のマルチモーダルCADデータセットである。約450KインスタンスとCAD構成シーケンスを含んでいる。生成したCADモデルの品質を徹底的に評価するために、トポロジ品質と表面囲い範囲を評価する付加指標を導入することにより、再構築品質に重点を置く現在の評価指標を超越した。大規模実験の結果,CAD-MLLMは既存の条件生成法を著しく上回り,ノイズや欠落点に対して頑健であることが明らかとなった。プロジェクトページとさらなる視覚化は、https://cad-mllm.github.io/で見ることができる。

関連論文リスト

CMT: A Cascade MAR with Topology Predictor for Multimodal Conditional CAD Generation [59.76687657887415]
境界表現(B-Rep)に基づくCAD生成のための最初のマルチモーダルフレームワークであるトポロジ予測器(CMT)を用いたカスケードMARを提案する。具体的には、カスケードMARは、B-Repsに必須のエッジカウンタ面の先行情報を効果的にキャプチャすることができる。マルチモーダルアノテーション付きB-Repモデルを含む大規模マルチモーダルCADデータセットmmABCを開発した。
論文参考訳（メタデータ） (2025-04-29T14:52:28Z)
CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文参考訳（メタデータ） (2025-04-07T06:01:35Z)
CAD-Assistant: Tool-Augmented VLLMs as Generic CAD Task Solvers [12.5472026454031]
CAD-AssistantはFreeCADソフトウェアを備えたPythonインタプリタ上で反復的に実行されるアクションを生成することでユーザクエリに対処する。我々は,スケッチ画像パラメーター,レンダリングモジュール,2次元断面生成器,その他の特殊なルーチンなど,CAD固有のツールを幅広く検討する。
論文参考訳（メタデータ） (2024-12-18T12:57:56Z)
BlenderLLM: Training Large Language Models for Computer-Aided Design with Self-improvement [45.19076032719869]
我々は,大規模言語モデル(LLM)をCAD(Computer-Aided Design)で訓練するフレームワークであるBlenderLLMを提案する。以上の結果から,既存のモデルではCADスクリプトの正確な生成に重大な制限があることが明らかとなった。命令ベースの微調整と反復的な自己改善によって、BlenderLLMはCADスクリプト生成の機能と精度の両方においてこれらのモデルを大幅に上回っている。
論文参考訳（メタデータ） (2024-12-16T14:34:02Z)
Text2CAD: Text to 3D CAD Generation via Technical Drawings [45.3611544056261]
Text2CADは、生成プロセスを自動化するために調整された安定した拡散モデルを利用する新しいフレームワークである。テキスト2CADは,高品質な3次元CADモデルに正確に変換された技術図面を効果的に生成することを示す。
論文参考訳（メタデータ） (2024-11-09T15:12:06Z)
FlexCAD: Unified and Versatile Controllable CAD Generation with Fine-tuned Large Language Models [22.010338370150738]
ユーザ意図に基づいてコンピュータ支援デザイン(CAD)モデルを作成することへの関心が高まっている。既存の作業は限定的な制御性を提供し、異なるタイプの制御のための別々のモデルが必要です。大規模言語モデルを微調整した統合モデルFlexCADを提案する。
論文参考訳（メタデータ） (2024-11-05T05:45:26Z)
Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。 Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文参考訳（メタデータ） (2024-10-04T13:27:52Z)
CadVLM: Bridging Language and Vision in the Generation of Parametric CAD Sketches [24.239470848849418]
CAD(Parametric Computer-Aided Design)は、現代の機械設計の中心である。 CAD生成のためのエンド・ツー・エンドの視覚言語モデルであるCadVLMを提案する。
論文参考訳（メタデータ） (2024-09-26T01:22:29Z)
PS-CAD: Local Geometry Guidance via Prompting and Selection for CAD Reconstruction [86.726941702182]
再構成ネットワークPS-CADに幾何学的ガイダンスを導入する。我々は、現在の再構成が点雲としての完備モデルと異なる曲面の幾何学を提供する。第二に、幾何学的解析を用いて、候補面に対応する平面的プロンプトの集合を抽出する。
論文参考訳（メタデータ） (2024-05-24T03:43:55Z)
ContrastCAD: Contrastive Learning-based Representation Learning for Computer-Aided Design Models [0.7373617024876725]
本稿では,ContrastCAD という,CAD モデルを学習するための対照的な学習手法を提案する。コントラストCADはCADモデルの構成シーケンス内の意味情報を効果的にキャプチャする。また,RRE法(Random Replace and Extrude)と呼ばれる新しいCADデータ拡張手法を提案し,モデルの学習性能を向上させる。
論文参考訳（メタデータ） (2024-04-02T05:30:39Z)
AutoCAD: Automatically Generating Counterfactuals for Mitigating Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文参考訳（メタデータ） (2022-11-29T13:39:53Z)
CADOps-Net: Jointly Learning CAD Operation Types and Steps from Boundary-Representations [17.051792180335354]
本稿では,CADの動作タイプと異なるCAD動作ステップへの分解を共同で学習する,新しいディープニューラルネットワークCADOps-Netを提案する。既存のデータセットと比較して、CC3D-Opsモデルの複雑さと多様性は、産業目的で使用されるものに近い。
論文参考訳（メタデータ） (2022-08-22T19:12:20Z)
Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文参考訳（メタデータ） (2021-08-20T20:58:52Z)
Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文参考訳（メタデータ） (2020-07-26T00:08:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。