論文の概要: STEP-LLM: Generating CAD STEP Models from Natural Language with Large Language Models
- arxiv url: http://arxiv.org/abs/2601.12641v1
- Date: Mon, 19 Jan 2026 01:10:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.720126
- Title: STEP-LLM: Generating CAD STEP Models from Natural Language with Large Language Models
- Title(参考訳): STEP-LLM:大規模言語モデルを用いた自然言語からのCAD STEPモデルの生成
- Authors: Xiangyu Shi, Junyang Ding, Xu Zhao, Sinong Zhan, Payal Mohapatra, Daniel Quispe, Kojo Welbeck, Jian Cao, Wei Chen, Ping Guo, Qi Zhu,
- Abstract要約: 本稿では,STEPのグラフ構造化フォーマットに適した新しいプリプロセッシングを提案する。
テキスト2CADベースライン上の幾何学的忠実度において,STEP-LLMが一貫した利得を示す。
- 参考スコア(独自算出の注目度): 16.811723701941546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-aided design (CAD) is vital to modern manufacturing, yet model creation remains labor-intensive and expertise-heavy. To enable non-experts to translate intuitive design intent into manufacturable artifacts, recent large language models-based text-to-CAD efforts focus on command sequences or script-based formats like CadQuery. However, these formats are kernel-dependent and lack universality for manufacturing. In contrast, the Standard for the Exchange of Product Data (STEP, ISO 10303) file is a widely adopted, neutral boundary representation (B-rep) format directly compatible with manufacturing, but its graph-structured, cross-referenced nature poses unique challenges for auto-regressive LLMs. To address this, we curate a dataset of ~40K STEP-caption pairs and introduce novel preprocessing tailored for the graph-structured format of STEP, including a depth-first search-based reserialization that linearizes cross-references while preserving locality and chain-of-thought(CoT)-style structural annotations that guide global coherence. We integrate retrieval-augmented generation to ground predictions in relevant examples for supervised fine-tuning, and refine generation quality through reinforcement learning with a specific Chamfer Distance-based geometric reward. Experiments demonstrate consistent gains of our STEP-LLM in geometric fidelity over the Text2CAD baseline, with improvements arising from multiple stages of our framework: the RAG module substantially enhances completeness and renderability, the DFS-based reserialization strengthens overall accuracy, and the RL further reduces geometric discrepancy. Both metrics and visual comparisons confirm that STEP-LLM generates shapes with higher fidelity than Text2CAD. These results show the feasibility of LLM-driven STEP model generation from natural language, showing its potential to democratize CAD design for manufacturing.
- Abstract(参考訳): コンピュータ支援設計(CAD)は現代の製造業にとって不可欠であるが、モデル作成は労働集約的で専門知識が豊富である。
非専門家が直感的な設計意図を製造可能なアーティファクトに変換するために、最近の大規模言語モデルベースのテキスト・トゥ・CADは、コマンドシーケンスやCadQueryのようなスクリプトベースのフォーマットに重点を置いている。
しかし、これらのフォーマットはカーネルに依存しており、製造に普遍性がない。
対照的に、Standard for the Exchange of Product Data (STEP, ISO 10303) ファイルは、製造と直接互換性のある、広く採用されている中立境界表現 (B-rep) フォーマットであるが、グラフ構造化され、相互参照された性質は、自動回帰LDMに固有の課題をもたらす。
これを解決するために,約40KのSTEPカプセルペアのデータセットをキュレートし,グローバルコヒーレンスをガイドする局所性やチェーン・オブ・ソート(CoT)スタイルの構造アノテーションを維持しつつ,相互参照を線形化する深度優先の検索ベース再シリアライズを含む,STEPのグラフ構造化フォーマットに適した新しいプリプロセッシングを導入する。
我々は,特定のシャンファー距離に基づく幾何報酬を用いた強化学習により,検索強化された生成を,教師付き微調整の関連例に応用し,生成品質を改良する。
RAGモジュールは完全性とレンダリング性を大幅に向上し、DFSベースの再シリアライズにより全体的な精度が向上し、RLはさらに幾何学的差を小さくする。
STEP-LLM は Text2CAD よりも忠実な形状を生成する。
これらの結果は,LLMによる自然言語からのSTEPモデル生成の実現可能性を示し,CAD設計の民主化の可能性を示している。
関連論文リスト
- CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation [30.08737988265254]
スケッチから3Dモデルを再構築する既存の方法は、しばしば非編集可能で近似的なモデルを生成する。
本稿では,CADコード生成のための新しい訓練パラダイムであるCME-CAD(Heterogeneous Collaborative Multi-Expert Reinforcement Learning)パラダイムを提案する。
MERL(Multi-Expert Fine-Tuning)とMulti-Expert Reinforcement Learning(MERL)という2段階の学習プロセスを導入する。
論文 参考訳(メタデータ) (2025-12-29T09:37:53Z) - ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models [16.220781575918256]
ReCADは、マルチモーダル入力から正確なパラメトリックコンピュータ支援設計(CAD)モデルを生成するために、プレトレーニング済みの大型モデル(PLM)をブートストラップする強化学習(RL)フレームワークである。
我々は階層的な原始的な学習プロセスを用いて、統一報酬関数の下で構造的および構成的スキルを教える。
ReCADは、テキスト・トゥ・CADタスクと画像・トゥ・CADタスクの両方で新しい最先端のタスクを設定し、分布内および分布外設定の幾何学的精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-06T07:12:56Z) - Table2LaTeX-RL: High-Fidelity LaTeX Code Generation from Table Images via Reinforced Multimodal Language Models [53.03670032402846]
視覚的な入力から,高品質で出版可能なテーブルの再構築を自動化することを目的として,表画像からコード生成への課題に対処する。
このタスクの中心的な課題は、大きなサイズ、深くネストされた構造、セマンティックにリッチか不規則かという複雑なテーブルを正確に扱うことである。
本稿では,大規模テーブル・トゥ・ラデータセット上で事前学習したMLLMを微調整する,強化型マルチモーダル大規模言語モデル(MLLM)を提案する。
論文 参考訳(メタデータ) (2025-09-22T11:13:48Z) - Human-in-the-Loop: Quantitative Evaluation of 3D Models Generation by Large Language Models [0.0]
本稿では,大規模言語モデルの生成した3次元モデルの定量的評価のためのループ・フレームワークの人間について紹介する。
本稿では, 体積精度, 表面アライメント, 次元忠実度, トポロジ的複雑度など, 類似度と複雑性の総合的な指標スイートを提案する。
本研究は,コードレベルが完璧に再構築され,意味的豊かさが向上し,生成精度が向上したことを示す。
論文 参考訳(メタデータ) (2025-09-06T11:04:15Z) - From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation [47.67703214044401]
CADモデリングコード生成のためのマルチモーダルChain-of-Thoughtガイド強化学習フレームワークCAD-RLを提案する。
本手法は,3つのタスク固有報酬を用いた目標駆動型強化学習ポストトレーニングとコールドスタートを組み合わせた。
CAD-RLは、推論品質、出力精度、コード実行可能性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-08-13T18:30:49Z) - CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning [31.342222156939403]
本稿では,2段階の微調整パラダイムであるCReFT-CADを紹介する。
われわれはTriView2CADをリリースした。
論文 参考訳(メタデータ) (2025-05-31T13:52:56Z) - cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning [55.16668009268005]
3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
論文 参考訳(メタデータ) (2025-05-28T22:32:31Z) - Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek [19.441404313543227]
本研究は,CADモデル生成のための自己補充機構に視覚的および連鎖的フィードバック(CoT)を組み込んだ最初の研究である。
SSR(Sketch, Sketch-based feature, and Refinements)の3次元設計パラダイムを中心に構築された革新的な3次元CADモデルデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:11:19Z) - Elucidating the Design Space of Multimodal Protein Language Models [69.3650883370033]
マルチモーダルタンパク質言語モデル(PLM)は、シーケンスとトークンに基づく構造情報を統合する。
本稿では,マルチモーダルPLMの設計空間を体系的に解明し,その限界を克服する。
我々の進歩はよりきめ細かな監督にアプローチし、トークンベースのマルチモーダルPLMが堅牢な構造モデリングを実現することを実証する。
論文 参考訳(メタデータ) (2025-04-15T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。