論文の概要: CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.00568v1
- Date: Sat, 31 May 2025 13:52:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.202133
- Title: CReFT-CAD: Boosting Orthographic Projection Reasoning for CAD via Reinforcement Fine-Tuning
- Title(参考訳): CreFT-CAD:強化ファインチューニングによるCADのオーソグラフィ投影推論
- Authors: Ke Niu, Zhuofan Chen, Haiyang Yu, Yuwen Chen, Teng Fu, Mengyang Zhao, Bin Li, Xiangyang Xue,
- Abstract要約: 本稿では,2段階の微調整パラダイムであるCReFT-CADを紹介する。
われわれはTriView2CADをリリースした。
- 参考スコア(独自算出の注目度): 50.867869718716555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-Aided Design (CAD) plays a pivotal role in industrial manufacturing. Orthographic projection reasoning underpins the entire CAD workflow, encompassing design, manufacturing, and simulation. However, prevailing deep-learning approaches employ standard 3D reconstruction pipelines as an alternative, which often introduce imprecise dimensions and limit the parametric editability required for CAD workflows. Recently, some researchers adopt vision-language models (VLMs), particularly supervised fine-tuning (SFT), to tackle CAD-related challenges. SFT shows promise but often devolves into pattern memorization, yielding poor out-of-distribution performance on complex reasoning tasks. To address these gaps, we introduce CReFT-CAD, a two-stage fine-tuning paradigm that first employs a curriculum-driven reinforcement learning stage with difficulty-aware rewards to build reasoning ability steadily, and then applies supervised post-tuning to hone instruction following and semantic extraction. Complementing this, we release TriView2CAD, the first large-scale, open-source benchmark for orthographic projection reasoning, comprising 200,000 synthetic and 3,000 real-world orthographic projections with precise dimension annotations and six interoperable data modalities. We benchmark leading VLMs on orthographic projection reasoning and demonstrate that CReFT-CAD substantially improves reasoning accuracy and out-of-distribution generalizability in real-world scenarios, offering valuable insights for advancing CAD reasoning research.
- Abstract(参考訳): CAD(Computer-Aided Design)は製造業において重要な役割を担っている。
オーソグラフィープロジェクション推論はCADワークフロー全体の基盤となり、設計、製造、シミュレーションを含む。
しかし、一般的なディープラーニングアプローチでは、標準的な3D再構成パイプラインを代替として採用しており、しばしば不正確な次元を導入し、CADワークフローに必要なパラメトリック編集可能性を制限する。
近年、CAD関連の課題に取り組むために視覚言語モデル(VLM)、特に教師付き微調整(SFT)を採用する研究者もいる。
SFTは約束を示すが、しばしばパターン記憶に発展し、複雑な推論タスクにおいて分配性能が劣る。
CReFT-CADは2段階の微調整パラダイムで、まずカリキュラム駆動の強化学習段階を採用し、学習の難易度を考慮し、推論能力の着実に構築し、その後、教師付き後学習をハウンの指示や意味抽出に適用する。
そこで我々はTriView2CADをリリースした。TriView2CADは、20,000の合成および3000の現実世界の3次元の正確なアノテーションと6つの相互運用可能なデータモダリティを含む、最初の大規模でオープンソースな正書法推論用ベンチマークである。
我々は,CreFT-CADが実世界のシナリオにおける推論精度と分布外一般化性を大幅に改善し,CAD推論研究の進展に有用な洞察を提供することを示す。
関連論文リスト
- CME-CAD: Heterogeneous Collaborative Multi-Expert Reinforcement Learning for CAD Code Generation [30.08737988265254]
スケッチから3Dモデルを再構築する既存の方法は、しばしば非編集可能で近似的なモデルを生成する。
本稿では,CADコード生成のための新しい訓練パラダイムであるCME-CAD(Heterogeneous Collaborative Multi-Expert Reinforcement Learning)パラダイムを提案する。
MERL(Multi-Expert Fine-Tuning)とMulti-Expert Reinforcement Learning(MERL)という2段階の学習プロセスを導入する。
論文 参考訳(メタデータ) (2025-12-29T09:37:53Z) - CADKnitter: Compositional CAD Generation from Text and Geometry Guidance [8.644079160190175]
幾何誘導拡散サンプリング戦略を用いた構成CAD生成フレームワークCADKnitterを提案する。
CADKnitterは、与えられたCADモデルの幾何学的制約と、所望の設計テキストプロンプトのセマンティック制約の両方に従う補完的なCAD部分を生成することができる。
また、310,000以上のCADモデルのサンプルと、テキストプロンプトとアセンブリメタデータを含むデータセット、いわゆるKnitCADをキュレートする。
論文 参考訳(メタデータ) (2025-12-12T01:06:38Z) - ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models [16.220781575918256]
ReCADは、マルチモーダル入力から正確なパラメトリックコンピュータ支援設計(CAD)モデルを生成するために、プレトレーニング済みの大型モデル(PLM)をブートストラップする強化学習(RL)フレームワークである。
我々は階層的な原始的な学習プロセスを用いて、統一報酬関数の下で構造的および構成的スキルを教える。
ReCADは、テキスト・トゥ・CADタスクと画像・トゥ・CADタスクの両方で新しい最先端のタスクを設定し、分布内および分布外設定の幾何学的精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-06T07:12:56Z) - From Intent to Execution: Multimodal Chain-of-Thought Reinforcement Learning for Precise CAD Code Generation [47.67703214044401]
CADモデリングコード生成のためのマルチモーダルChain-of-Thoughtガイド強化学習フレームワークCAD-RLを提案する。
本手法は,3つのタスク固有報酬を用いた目標駆動型強化学習ポストトレーニングとコールドスタートを組み合わせた。
CAD-RLは、推論品質、出力精度、コード実行可能性を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-08-13T18:30:49Z) - RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base [112.72361202480154]
本稿では,3次元CADモデルを知識ベースとして活用する検索拡張手法であるRAG-6DPoseを提案する。
標準的なベンチマークと実世界のロボットタスクによる実験結果は、我々のアプローチの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2025-06-23T17:19:41Z) - GenCAD-Self-Repairing: Feasibility Enhancement for 3D CAD Generation [1.757434918993298]
GenCADはこの領域で注目すべきモデルであり、自動回帰トランスフォーマーベースのアーキテクチャを利用してCADプログラムを生成する。
GenCAD-Self-Repairingは,拡散誘導と自己修復パイプラインによって生成CADモデルの実現性を高めるフレームワークである。
論文 参考訳(メタデータ) (2025-05-29T09:39:19Z) - cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning [41.24641565316878]
3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
論文 参考訳(メタデータ) (2025-05-28T22:32:31Z) - Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek [19.441404313543227]
本研究は,CADモデル生成のための自己補充機構に視覚的および連鎖的フィードバック(CoT)を組み込んだ最初の研究である。
SSR(Sketch, Sketch-based feature, and Refinements)の3次元設計パラダイムを中心に構築された革新的な3次元CADモデルデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:11:19Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - PHT-CAD: Efficient CAD Parametric Primitive Analysis with Progressive Hierarchical Tuning [52.681829043446044]
ParaCADは1000万点以上のアノテートドローイングと、複雑なトポロジカルな構造とテストのための物理的な制約を備えた3,000の現実世界の産業図で構成されている。
PHT-CADは視覚言語モデルのモダリティアライメントと推論機能を利用する新しい2次元PPAフレームワークである。
論文 参考訳(メタデータ) (2025-03-23T17:24:32Z) - CADSpotting: Robust Panoptic Symbol Spotting on Large-Scale CAD Drawings [56.05238657033198]
本稿では,大規模CAD図面におけるパノプティカルシンボルスポッティングの効果的な方法であるCADSpottingを紹介する。
また、重み付き投票とNon-Maximum Suppression(NMS)を組み合わせたSWA(Sliding Window Aggregation)手法を提案する。
FloorPlanCAD と LS-CAD の実験により,CADSpotting が既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-12-10T10:22:17Z) - GenCAD: Image-Conditioned Computer-Aided Design Generation with Transformer-Based Contrastive Representation and Diffusion Priors [3.796768352477804]
CAD(Computer-Aided Design)による製造可能で編集可能な3D形状の作成は、手作業と時間を要する作業である。
本稿では、画像入力をパラメトリックCADコマンドシーケンスに変換するために、コントラスト学習フレームワークと潜時拡散モデルを備えた自己回帰変換器を用いた生成モデルであるGenCADを紹介する。
論文 参考訳(メタデータ) (2024-09-08T23:49:11Z) - Multi-task Learning with 3D-Aware Regularization [55.97507478913053]
本稿では,画像エンコーダから抽出した特徴を共有3D特徴空間に投影することで,複数のタスクをインタフェースする構造化3D認識正規化器を提案する。
提案手法はアーキテクチャ非依存であり,従来のマルチタスクバックボーンにプラグインすることで,性能を向上できることを示す。
論文 参考訳(メタデータ) (2023-10-02T08:49:56Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。