論文の概要: CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation
- arxiv url: http://arxiv.org/abs/2505.14646v1
- Date: Tue, 20 May 2025 17:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.649157
- Title: CAD-Coder: An Open-Source Vision-Language Model for Computer-Aided Design Code Generation
- Title(参考訳): CADコーダ:コンピュータ支援設計コード生成のためのオープンソースのビジョン言語モデル
- Authors: Anna C. Doris, Md Ferdous Alam, Amin Heyrani Nobari, Faez Ahmed,
- Abstract要約: 本稿では、ビジュアル入力から直接編集可能なCADコード(CadQuery Python)を生成するために、明示的に微調整されたオープンソースのVision-Language Model(VLM)であるCAD-Coderを紹介する。
163k以上のCADモデルイメージとコードペアで構成されるGenCAD-Codeは、私たちが作成した新しいデータセットを活用します。
- 参考スコア(独自算出の注目度): 4.092348452904736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient creation of accurate and editable 3D CAD models is critical in engineering design, significantly impacting cost and time-to-market in product innovation. Current manual workflows remain highly time-consuming and demand extensive user expertise. While recent developments in AI-driven CAD generation show promise, existing models are limited by incomplete representations of CAD operations, inability to generalize to real-world images, and low output accuracy. This paper introduces CAD-Coder, an open-source Vision-Language Model (VLM) explicitly fine-tuned to generate editable CAD code (CadQuery Python) directly from visual input. Leveraging a novel dataset that we created--GenCAD-Code, consisting of over 163k CAD-model image and code pairs--CAD-Coder outperforms state-of-the-art VLM baselines such as GPT-4.5 and Qwen2.5-VL-72B, achieving a 100% valid syntax rate and the highest accuracy in 3D solid similarity. Notably, our VLM demonstrates some signs of generalizability, successfully generating CAD code from real-world images and executing CAD operations unseen during fine-tuning. The performance and adaptability of CAD-Coder highlights the potential of VLMs fine-tuned on code to streamline CAD workflows for engineers and designers. CAD-Coder is publicly available at: https://github.com/anniedoris/CAD-Coder.
- Abstract(参考訳): 正確で編集可能な3DCADモデルの効率的な作成は、エンジニアリング設計において極めて重要であり、製品革新のコストと市場投入時間に大きな影響を及ぼす。
現在の手動ワークフローは、非常に時間がかかり、広範なユーザ専門知識を必要としています。
近年のAI駆動CAD生成技術は将来性を示しているが,既存のモデルはCAD操作の不完全表現,現実の画像への一般化の不可能,出力精度の低下などによって制限されている。
本稿では、ビジュアル入力から直接編集可能なCADコード(CadQuery Python)を生成するために、明示的に微調整されたオープンソースのVision-Language Model(VLM)であるCAD-Coderを紹介する。
CAD-Coderは、GPT-4.5やQwen2.5-VL-72Bといった最先端のVLMベースラインよりも優れており、100%有効な構文率と3Dソリッド類似性が最も高い精度を実現しています。
特に,本VLMでは,実世界の画像からCADコードを生成し,微調整中に見つからないCAD操作を実行することで,一般化の兆しを示す。
CAD-Coderの性能と適応性は、エンジニアやデザイナのためのCADワークフローを合理化するために、コードに微調整されたVLMの可能性を強調している。
CAD-Coderは、https://github.com/anniedoris/CAD-Coder.comで公開されている。
関連論文リスト
- CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - CAD-Recode: Reverse Engineering CAD Code from Point Clouds [12.864274930732055]
3D CADリバースエンジニアリングは、点雲などの3D表現からスケッチとCAD操作シーケンスを再構成する。
提案したCAD-Recodeは,ポイントクラウドをPythonコードに変換することで,CADモデルを再構築する。
CADPythonのコード出力は既製のLCMで解釈可能であることを示し、CAD編集とCAD固有の問合せをポイントクラウドから行うことができることを示した。
論文 参考訳(メタデータ) (2024-12-18T16:55:42Z) - BlenderLLM: Training Large Language Models for Computer-Aided Design with Self-improvement [45.19076032719869]
我々は,大規模言語モデル(LLM)をCAD(Computer-Aided Design)で訓練するフレームワークであるBlenderLLMを提案する。
以上の結果から,既存のモデルではCADスクリプトの正確な生成に重大な制限があることが明らかとなった。
命令ベースの微調整と反復的な自己改善によって、BlenderLLMはCADスクリプト生成の機能と精度の両方においてこれらのモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-16T14:34:02Z) - Text2CAD: Text to 3D CAD Generation via Technical Drawings [45.3611544056261]
Text2CADは、生成プロセスを自動化するために調整された安定した拡散モデルを利用する新しいフレームワークである。
テキスト2CADは,高品質な3次元CADモデルに正確に変換された技術図面を効果的に生成することを示す。
論文 参考訳(メタデータ) (2024-11-09T15:12:06Z) - OpenECAD: An Efficient Visual Language Model for Editable 3D-CAD Design [1.481550828146527]
OpenECADモデル(0.55B, 0.89B, 2.4B, 3.1B)を作成するための事前学習モデルの微調整を行った。
OpenECADモデルは、入力として3Dデザインの画像を処理することができ、高度に構造化された2Dスケッチと3D構築コマンドを生成する。
これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。
論文 参考訳(メタデータ) (2024-06-14T10:47:52Z) - Geometric Deep Learning for Computer-Aided Design: A Survey [85.79012726689511]
本調査では,コンピュータ支援設計における学習手法の概要について概観する。
類似性解析と検索、2Dおよび3DCADモデル合成、点雲からのCAD生成を含む。
ベンチマークデータセットとその特性の完全なリストと、この領域の研究を推進しているオープンソースコードを提供する。
論文 参考訳(メタデータ) (2024-02-27T17:11:35Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。