論文の概要: ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.06328v1
- Date: Sat, 06 Dec 2025 07:12:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.301695
- Title: ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models
- Title(参考訳): ReCAD:視覚言語モデルを用いた強化パラメトリックCADモデル生成
- Authors: Jiahao Li, Yusheng Luo, Yunzhong Lou, Xiangdong Zhou,
- Abstract要約: ReCADは、マルチモーダル入力から正確なパラメトリックコンピュータ支援設計(CAD)モデルを生成するために、プレトレーニング済みの大型モデル(PLM)をブートストラップする強化学習(RL)フレームワークである。
我々は階層的な原始的な学習プロセスを用いて、統一報酬関数の下で構造的および構成的スキルを教える。
ReCADは、テキスト・トゥ・CADタスクと画像・トゥ・CADタスクの両方で新しい最先端のタスクを設定し、分布内および分布外設定の幾何学的精度を大幅に改善する。
- 参考スコア(独自算出の注目度): 16.220781575918256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ReCAD, a reinforcement learning (RL) framework that bootstraps pretrained large models (PLMs) to generate precise parametric computer-aided design (CAD) models from multimodal inputs by leveraging their inherent generative capabilities. With just access to simple functional interfaces (e.g., point coordinates), our approach enables the emergence of complex CAD operations (e.g., pattern replication and mirror). This stands in contrast to previous methods, which typically rely on knowledge injected through supervised fine-tuning (SFT), offer limited support for editability, and fail to exploit the strong generative priors of PLMs. Specifically, the ReCAD framework begins by fine-tuning vision-language models (VLMs) to equip them with basic CAD model generation capabilities, where we rewrite CAD scripts into parameterized code that is leveraged to generate accurate textual descriptions for supervision. Then, we propose a novel RL strategy that incorporates parameterized code as guidance to enhance the model's reasoning on challenging questions. Furthermore, we employ a hierarchical primitive learning process to progressively teach structured and compositional skills under a unified reward function that ensures both geometric accuracy and semantic fidelity. ReCAD sets a new state-of-the-art in both text-to-CAD and image-to-CAD tasks, significantly improving geometric accuracy across in-distribution and out-of-distribution settings. In the image-to-CAD task, for instance, it reduces the mean Chamfer Distance from 73.47 to 29.61 (in-distribution) and from 272.06 to 80.23 (out-of-distribution), outperforming existing baselines by a substantial margin.
- Abstract(参考訳): 提案するReCADは,大規模モデル(PLM)をブートストラップする強化学習(RL)フレームワークで,多モード入力から高精度なパラメトリックコンピュータ支援設計(CAD)モデルを生成する。
単純な機能インターフェース(例えば点座標)にのみアクセスすることで、複雑なCAD操作(例えば、パターンレプリケーションやミラー)の出現を可能にします。
これは従来の手法とは対照的に、典型的には教師付き微調整(SFT)によって注入される知識に依存し、編集性に制限のあるサポートを提供し、PLMの強力な生成的先例を活用できない。
特に、ReCADフレームワークは、視覚言語モデル(VLM)を微調整し、基本的なCADモデル生成機能を備えることから始まり、CADスクリプトをパラメータ化されたコードに書き直して、監督のための正確なテキスト記述を生成する。
そこで本研究では,パラメータ化されたコードをガイダンスとして組み込んだ新しいRL戦略を提案する。
さらに、階層的な原始的な学習プロセスを用いて、幾何的精度と意味的忠実性の両方を保証する統一報酬関数の下で、構造的および構成的スキルを段階的に教える。
ReCADは、テキスト・トゥ・CADタスクと画像・トゥ・CADタスクの両方で新しい最先端のタスクを設定し、分布内および分布外設定の幾何学的精度を大幅に改善する。
例えばImage-to-CADタスクでは、平均的なChamfer Distanceを73.47から29.61に、272.06から80.23に減らし、既存のベースラインをかなり上回っている。
関連論文リスト
- GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image [11.612167656421079]
マルチモーダル大言語モデル(MLLM)は2次元画像から3次元幾何学を正確に推定するのに依然として苦労している。
本稿では,新しい2段階後学習フレームワークGACO-CADを紹介する。
DeepCADとFusion360データセットの実験は、GACO-CADが最先端のパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-10-20T04:57:20Z) - From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation [47.67703214044401]
CADモデリングコード生成のためのマルチモーダルChain-of-Thoughtガイド強化学習フレームワークCAD-RLを提案する。
本手法は,3つのタスク固有報酬を用いた目標駆動型強化学習ポストトレーニングとコールドスタートを組み合わせた。
CAD-RLは、推論品質、出力精度、コード実行可能性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-08-13T18:30:49Z) - CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning [31.342222156939403]
本稿では,2段階の微調整パラダイムであるCReFT-CADを紹介する。
われわれはTriView2CADをリリースした。
論文 参考訳(メタデータ) (2025-05-31T13:52:56Z) - Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek [19.441404313543227]
本研究は,CADモデル生成のための自己補充機構に視覚的および連鎖的フィードバック(CoT)を組み込んだ最初の研究である。
SSR(Sketch, Sketch-based feature, and Refinements)の3次元設計パラダイムを中心に構築された革新的な3次元CADモデルデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:11:19Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。