論文の概要: CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.00568v1
- Date: Sat, 31 May 2025 13:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.202133
- Title: CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
- Title(参考訳): CreFT-CAD:強化ファインチューニングによるCADのオーソグラフィ投影推論
- Authors: Ke Niu, Zhuofan Chen, Haiyang Yu, Yuwen Chen, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue,
- Abstract要約: 本稿では,2段階の微調整パラダイムであるCReFT-CADを紹介する。
われわれはTriView2CADをリリースした。
- 参考スコア(独自算出の注目度): 50.867869718716555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-Aided Design (CAD) plays a pivotal role in industrial manufacturing. Orthographic projection reasoning underpins the entire CAD workflow, encompassing design, manufacturing, and simulation. However, prevailing deep-learning approaches employ standard 3D reconstruction pipelines as an alternative, which often introduce imprecise dimensions and limit the parametric editability required for CAD workflows. Recently, some researchers adopt vision-language models (VLMs), particularly supervised fine-tuning (SFT), to tackle CAD-related challenges. SFT shows promise but often devolves into pattern memorization, yielding poor out-of-distribution performance on complex reasoning tasks. To address these gaps, we introduce CReFT-CAD, a two-stage fine-tuning paradigm that first employs a curriculum-driven reinforcement learning stage with difficulty-aware rewards to build reasoning ability steadily, and then applies supervised post-tuning to hone instruction following and semantic extraction. Complementing this, we release TriView2CAD, the first large-scale, open-source benchmark for orthographic projection reasoning, comprising 200,000 synthetic and 3,000 real-world orthographic projections with precise dimension annotations and six interoperable data modalities. We benchmark leading VLMs on orthographic projection reasoning and demonstrate that CReFT-CAD substantially improves reasoning accuracy and out-of-distribution generalizability in real-world scenarios, offering valuable insights for advancing CAD reasoning research.
- Abstract(参考訳): CAD(Computer-Aided Design)は製造業において重要な役割を担っている。
オーソグラフィープロジェクション推論はCADワークフロー全体の基盤となり、設計、製造、シミュレーションを含む。
しかし、一般的なディープラーニングアプローチでは、標準的な3D再構成パイプラインを代替として採用しており、しばしば不正確な次元を導入し、CADワークフローに必要なパラメトリック編集可能性を制限する。
近年、CAD関連の課題に取り組むために視覚言語モデル(VLM)、特に教師付き微調整(SFT)を採用する研究者もいる。
SFTは約束を示すが、しばしばパターン記憶に発展し、複雑な推論タスクにおいて分配性能が劣る。
CReFT-CADは2段階の微調整パラダイムで、まずカリキュラム駆動の強化学習段階を採用し、学習の難易度を考慮し、推論能力の着実に構築し、その後、教師付き後学習をハウンの指示や意味抽出に適用する。
そこで我々はTriView2CADをリリースした。TriView2CADは、20,000の合成および3000の現実世界の3次元の正確なアノテーションと6つの相互運用可能なデータモダリティを含む、最初の大規模でオープンソースな正書法推論用ベンチマークである。
我々は,CreFT-CADが実世界のシナリオにおける推論精度と分布外一般化性を大幅に改善し,CAD推論研究の進展に有用な洞察を提供することを示す。
関連論文リスト
- cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning [41.24641565316878]
3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
論文 参考訳(メタデータ) (2025-05-28T22:32:31Z) - Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek [19.441404313543227]
本研究は,CADモデル生成のための自己補充機構に視覚的および連鎖的フィードバック(CoT)を組み込んだ最初の研究である。
SSR(Sketch, Sketch-based feature, and Refinements)の3次元設計パラダイムを中心に構築された革新的な3次元CADモデルデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:11:19Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - PHT-CAD: Efficient CAD Parametric Primitive Analysis with Progressive Hierarchical Tuning [52.681829043446044]
ParaCADは1000万点以上のアノテートドローイングと、複雑なトポロジカルな構造とテストのための物理的な制約を備えた3,000の現実世界の産業図で構成されている。
PHT-CADは視覚言語モデルのモダリティアライメントと推論機能を利用する新しい2次元PPAフレームワークである。
論文 参考訳(メタデータ) (2025-03-23T17:24:32Z) - GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors [3.796768352477804]
CAD(Computer-Aided Design)による製造可能で編集可能な3D形状の作成は、手作業と時間を要する作業である。
本稿では、画像入力をパラメトリックCADコマンドシーケンスに変換するために、コントラスト学習フレームワークと潜時拡散モデルを備えた自己回帰変換器を用いた生成モデルであるGenCADを紹介する。
論文 参考訳(メタデータ) (2024-09-08T23:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。