論文の概要: CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2412.19663v1
- Date: Fri, 27 Dec 2024 14:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:38.645552
- Title: CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs
- Title(参考訳): CAD-GPT:空間共振強化多モードLCMを用いたCAD構築系列の合成
- Authors: Siyu Wang, Cailian Chen, Xinyi Le, Qimin Xu, Lei Xu, Yanzhou Zhang, Jie Yang,
- Abstract要約: 本研究では,空間推論強化MLLMを用いたCAD合成法CAD-GPTを紹介する。
空間展開機構を用いて3次元空間位置と3次元スケッチ平面回転角を1次元言語特徴空間にマッピングする。
また、2Dスケッチ座標を適切な平面空間に識別し、空間開始位置、スケッチ方向、および2Dスケッチ座標変換の正確な決定を可能にする。
- 参考スコア(独自算出の注目度): 15.505120320280007
- License:
- Abstract: Computer-aided design (CAD) significantly enhances the efficiency, accuracy, and innovation of design processes by enabling precise 2D and 3D modeling, extensive analysis, and optimization. Existing methods for creating CAD models rely on latent vectors or point clouds, which are difficult to obtain and costly to store. Recent advances in Multimodal Large Language Models (MLLMs) have inspired researchers to use natural language instructions and images for CAD model construction. However, these models still struggle with inferring accurate 3D spatial location and orientation, leading to inaccuracies in determining the spatial 3D starting points and extrusion directions for constructing geometries. This work introduces CAD-GPT, a CAD synthesis method with spatial reasoning-enhanced MLLM that takes either a single image or a textual description as input. To achieve precise spatial inference, our approach introduces a 3D Modeling Spatial Mechanism. This method maps 3D spatial positions and 3D sketch plane rotation angles into a 1D linguistic feature space using a specialized spatial unfolding mechanism, while discretizing 2D sketch coordinates into an appropriate planar space to enable precise determination of spatial starting position, sketch orientation, and 2D sketch coordinate translations. Extensive experiments demonstrate that CAD-GPT consistently outperforms existing state-of-the-art methods in CAD model synthesis, both quantitatively and qualitatively.
- Abstract(参考訳): CAD(Computer-Aided Design)は、正確な2Dおよび3Dモデリング、広範囲な解析、最適化を可能にし、設計プロセスの効率、精度、革新性を著しく向上させる。
CADモデルを作成する既存の方法は遅延ベクトルや点雲に依存しており、取得が難しく、保存にコストがかかる。
MLLM(Multimodal Large Language Models)の最近の進歩は、CADモデル構築に自然言語命令と画像を使用することに研究者に刺激を与えている。
しかし、これらのモデルは正確な3次元空間位置と向きの推測に苦慮し、空間的な3次元出発点と射出方向を決定するのに不正確となる。
CAD-GPTは,1つの画像またはテキスト記述を入力として取り出す空間推論強化MLLMを用いたCAD合成法である。
正確な空間推定を実現するため,本研究では3次元モデリング空間機構を提案する。
特殊な空間展開機構を用いて3次元空間位置と3次元スケッチ平面回転角を1次元言語特徴空間にマッピングし、2次元スケッチ座標を適切な平面空間に識別し、空間開始位置、スケッチ方向、および2次元スケッチ座標変換の正確な決定を可能にする。
CAD-GPTは、CADモデル合成において、定量的かつ定性的に、既存の最先端手法を一貫して上回ることを示した。
関連論文リスト
- Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized
Device Coordinates Space [77.6067460464962]
SSC(Monocular 3D Semantic Scene Completion)は、単一の画像から複雑なセマンティックスや幾何学的形状を予測し、3D入力を必要としないため、近年大きな注目を集めている。
我々は,3次元空間に投影された2次元特徴の特徴的曖昧さ,3次元畳み込みのPose Ambiguity,深さの異なる3次元畳み込みにおける不均衡など,現在の最先端手法におけるいくつかの重要な問題を明らかにする。
シーン補完ネットワーク(NDC-Scene)を考案し,2を直接拡張する。
論文 参考訳(メタデータ) (2023-09-26T02:09:52Z) - PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views
with Learnt Shape Programs [24.09764733540401]
本研究では、3つの正書法からの2次元線図を3次元CADモデルに自動変換する手法を開発した。
我々はトランスフォーマーに基づくシーケンス生成モデルにおける注意機構を利用して、入力と出力の間の柔軟なマッピングを学習する。
提案手法は,入力がノイズや不完全である場合,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2023-08-10T17:59:34Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - SECAD-Net: Self-Supervised CAD Reconstruction by Learning Sketch-Extrude
Operations [21.000539206470897]
SECAD-Netは、コンパクトで使いやすいCADモデルの再構築を目的とした、エンドツーエンドのニューラルネットワークである。
本研究は,CAD再構築の手法など,最先端の代替手段よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-19T09:26:03Z) - ROCA: Robust CAD Model Retrieval and Alignment from a Single Image [22.03752392397363]
本稿では,形状データベースから1つの入力画像へ3次元CADモデルを検索・アライメントする,新しいエンドツーエンドアプローチであるROCAを提案する。
ScanNetによる挑戦的で現実的な画像の実験では、ROCAは検索対応CADアライメントの精度が9.5%から17.6%に向上した。
論文 参考訳(メタデータ) (2021-12-03T16:02:32Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - CAD-Deform: Deformable Fitting of CAD Models to 3D Scans [30.451330075135076]
本稿では,検索したCADモデルを用いて,より高精度なCAD-to-Scanマッチングを実現するCAD-Deformを提案する。
一連の実験により,本手法はより厳密なスキャン・トゥ・CAD適合性を実現し,スキャンした実環境のより正確なデジタル複製を可能にした。
論文 参考訳(メタデータ) (2020-07-23T12:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。