論文の概要: Text-to-CadQuery: A New Paradigm for CAD Generation with Scalable Large Model Capabilities
- arxiv url: http://arxiv.org/abs/2505.06507v1
- Date: Sat, 10 May 2025 04:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.874937
- Title: Text-to-CadQuery: A New Paradigm for CAD Generation with Scalable Large Model Capabilities
- Title(参考訳): Text-to-CadQuery: スケーラブルな大規模モデル機能を備えたCAD生成のための新しいパラダイム
- Authors: Haoyang Xie, Feng Ju,
- Abstract要約: CAD (Computer-Aided Design) は現代の工学と製造の基礎であるが、CADモデルの作成には専門家の知識と専門的なソフトウェアが必要である。
大規模言語モデル(LLM)の最近の進歩は、自然言語を直接パラメトリック3Dモデルに変換する生成CADの可能性を開く。
テキストから直接CadQueryコードを生成し、事前学習したLLMの強みを活用して中間表現なしで3Dモデルを生成する。
- 参考スコア(独自算出の注目度): 4.093726588615417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-aided design (CAD) is fundamental to modern engineering and manufacturing, but creating CAD models still requires expert knowledge and specialized software. Recent advances in large language models (LLMs) open up the possibility of generative CAD, where natural language is directly translated into parametric 3D models. However, most existing methods generate task-specific command sequences that pretrained models cannot directly handle. These sequences must be converted into CAD representations such as CAD vectors before a 3D model can be produced, which requires training models from scratch and adds unnecessary complexity. To tackle this issue, we propose generating CadQuery code directly from text, leveraging the strengths of pretrained LLMs to produce 3D models without intermediate representations, using this Python-based scripting language. Since LLMs already excel at Python generation and spatial reasoning, fine-tuning them on Text-to-CadQuery data proves highly effective. Given that these capabilities typically improve with scale, we hypothesize that larger models will perform better after fine-tuning. To enable this, we augment the Text2CAD dataset with 170,000 CadQuery annotations. We fine-tune six open-source LLMs of varying sizes and observe consistent improvements. Our best model achieves a top-1 exact match of 69.3%, up from 58.8%, and reduces Chamfer Distance by 48.6%. Project page: https://github.com/Text-to-CadQuery/Text-to-CadQuery.
- Abstract(参考訳): CAD (Computer-Aided Design) は現代の工学と製造の基礎であるが、CADモデルの作成には専門家の知識と専門的なソフトウェアが必要である。
大規模言語モデル(LLM)の最近の進歩は、自然言語を直接パラメトリック3Dモデルに変換する生成CADの可能性を開く。
しかし、既存のほとんどのメソッドは、事前訓練されたモデルでは直接処理できないタスク固有のコマンドシーケンスを生成する。
これらのシーケンスは、3Dモデルが生成される前にCADベクトルのようなCAD表現に変換されなければならない。
この問題に対処するために,Python ベースのスクリプト言語を用いて,事前学習した LLM の強みを利用して,中間表現なしで3次元モデルを生成する CadQuery コード生成を提案する。
LLMはPythonの生成と空間的推論に優れており、Text-to-CadQueryデータでそれらを微調整することは極めて効果的である。
これらの能力が通常、スケールで改善されることを考えると、我々はより大規模なモデルが微調整後により良く機能すると仮定する。
これを実現するために、170,000のCadQueryアノテーションでText2CADデータセットを拡張しました。
異なるサイズのオープンソースLLMを6つ微調整し、一貫した改善を観察する。
我々のベストモデルは69.3%で、58.8%から上昇し、チャンファー距離を48.6%減らす。
プロジェクトページ: https://github.com/Text-to-CadQuery/Text-to-CadQuery
関連論文リスト
- CAD-Recode: Reverse Engineering CAD Code from Point Clouds [12.864274930732055]
3D CADリバースエンジニアリングは、点雲などの3D表現からスケッチとCAD操作シーケンスを再構成する。
提案したCAD-Recodeは,ポイントクラウドをPythonコードに変換することで,CADモデルを再構築する。
CADPythonのコード出力は既製のLCMで解釈可能であることを示し、CAD編集とCAD固有の問合せをポイントクラウドから行うことができることを示した。
論文 参考訳(メタデータ) (2024-12-18T16:55:42Z) - BlenderLLM: Training Large Language Models for Computer-Aided Design with Self-improvement [45.19076032719869]
我々は,大規模言語モデル(LLM)をCAD(Computer-Aided Design)で訓練するフレームワークであるBlenderLLMを提案する。
以上の結果から,既存のモデルではCADスクリプトの正確な生成に重大な制限があることが明らかとなった。
命令ベースの微調整と反復的な自己改善によって、BlenderLLMはCADスクリプト生成の機能と精度の両方においてこれらのモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-16T14:34:02Z) - FlexCAD: Unified and Versatile Controllable CAD Generation with Fine-tuned Large Language Models [22.010338370150738]
大規模言語モデル(LLM)を微調整した統合モデルFlexCADを提案する。
我々はCADモデルを構造化テキストとして表現し、各階層をテキストトークンのシーケンスとして抽象化する。
推論中、ユーザの意図をCADテキストに変換し、ユーザが変更したい部分をマスクトークンで置き換える。
論文 参考訳(メタデータ) (2024-11-05T05:45:26Z) - Text2CAD: Generating Sequential CAD Models from Beginner-to-Expert Level Text Prompts [12.63158811936688]
テキストからパラメトリックCADモデルを生成するための最初のAIフレームワークであるText2CADを提案する。
提案するフレームワークは,AI支援設計アプリケーションにおいて大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-25T17:19:33Z) - GigaPose: Fast and Robust Novel Object Pose Estimation via One Correspondence [64.77224422330737]
GigaPoseは、RGB画像におけるCADベースの新しいオブジェクトポーズ推定のための高速で堅牢で正確な方法である。
提案手法では,通常の3次元ではなく,2自由度空間でテンプレートをサンプリングする。
最先端の精度を実現し、既存の精錬手法とシームレスに統合することができる。
論文 参考訳(メタデータ) (2023-11-23T18:55:03Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - Prompt2Model: Generating Deployable Models from Natural Language
Instructions [74.19816829003729]
大規模言語モデル(LLM)により、システムビルダーはプロンプトによって有能なNLPシステムを作成することができる。
言い換えれば、LSMは従来の特殊目的のNLPモデルとは逆のステップである。
本稿では,LLMに提供されるプロンプトのように自然言語によるタスク記述を行う汎用手法であるPrompt2Modelを提案する。
論文 参考訳(メタデータ) (2023-08-23T17:28:21Z) - CAD-Estate: Large-scale CAD Model Annotation in RGB Videos [34.63782303927944]
本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。
データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。
本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。
論文 参考訳(メタデータ) (2023-06-15T10:12:02Z) - LongForm: Effective Instruction Tuning with Reverse Instructions [74.14035528786997]
本稿では,逆命令によって生成されるLongForm-Cデータセットを紹介する。
逆命令を用いた人書きコーパスの例を LLM で生成する。
我々のモデルは、ストーリー/レシピ生成や長文質問応答といったタスクを指導することなく、10倍の言語モデルより優れています。
論文 参考訳(メタデータ) (2023-04-17T17:36:35Z) - Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$ [118.04625413322827]
$texttt5x$と$texttseqio$は、言語モデルの構築とトレーニングのためのオープンソースのソフトウェアライブラリである。
これらのライブラリは、複数のテラバイトのトレーニングデータを持つデータセット上で、数十億のパラメータを持つモデルをトレーニングするために使用されています。
論文 参考訳(メタデータ) (2022-03-31T17:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。