論文の概要: cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.22914v1
- Date: Wed, 28 May 2025 22:32:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.568259
- Title: cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning
- Title(参考訳): cadrille: オンライン強化学習によるマルチモーダルCAD再構成
- Authors: Maksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich,
- Abstract要約: 3つの入力モードを同時に処理するマルチモーダルCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
DeepCADベンチマークでは、SFTモデルは3つの入力モードすべてにおいて既存の単一モードアプローチを同時に上回ります。
- 参考スコア(独自算出の注目度): 41.24641565316878
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer-Aided Design (CAD) plays a central role in engineering and manufacturing, making it possible to create precise and editable 3D models. Using a variety of sensor or user-provided data as inputs for CAD reconstruction can democratize access to design applications. However, existing methods typically focus on a single input modality, such as point clouds, images, or text, which limits their generalizability and robustness. Leveraging recent advances in vision-language models (VLM), we propose a multi-modal CAD reconstruction model that simultaneously processes all three input modalities. Inspired by large language model (LLM) training paradigms, we adopt a two-stage pipeline: supervised fine-tuning (SFT) on large-scale procedurally generated data, followed by reinforcement learning (RL) fine-tuning using online feedback, obtained programatically. Furthermore, we are the first to explore RL fine-tuning of LLMs for CAD tasks demonstrating that online RL algorithms such as Group Relative Preference Optimization (GRPO) outperform offline alternatives. In the DeepCAD benchmark, our SFT model outperforms existing single-modal approaches in all three input modalities simultaneously. More importantly, after RL fine-tuning, cadrille sets new state-of-the-art on three challenging datasets, including a real-world one.
- Abstract(参考訳): CAD(Computer-Aided Design)は、工学と製造において中心的な役割を担い、正確かつ編集可能な3Dモデルを作成することができる。
CAD再構成のための入力として様々なセンサやユーザが提供するデータを使用することで、デザインアプリケーションへのアクセスを民主化することができる。
しかし、既存の手法は通常、点雲、画像、テキストのような単一の入力モダリティに焦点を合わせ、それらの一般化性と堅牢性を制限する。
視覚言語モデル(VLM)の最近の進歩を利用して、3つの入力モードを同時に処理する多モードCAD再構成モデルを提案する。
大規模プロシージャ生成データに対する教師付き微調整(SFT)と,オンラインフィードバックを用いた強化学習(RL)の2段階パイプラインをプログラム的に取得した。
さらに、CADタスクにおけるLLMの微調整を初めて検討し、グループ相対選好最適化(GRPO)のようなオンラインRLアルゴリズムがオフラインの代替よりも優れていることを示す。
DeepCADベンチマークでは、SFTモデルは3つの入力モード全てにおいて既存の単一モードアプローチを同時に上回ります。
さらに重要なのは、RLの微調整の後、現実世界のデータセットを含む3つの挑戦的なデータセットに新しい最先端のデータセットをセットしたことだ。
関連論文リスト
- Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek [19.441404313543227]
本研究は,CADモデル生成のための自己補充機構に視覚的および連鎖的フィードバック(CoT)を組み込んだ最初の研究である。
SSR(Sketch, Sketch-based feature, and Refinements)の3次元設計パラダイムを中心に構築された革新的な3次元CADモデルデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-23T10:11:19Z) - CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation [16.212242362122947]
本研究では,Large Language Models (LLMs) を用いたCADモデルにおけるパラメトリックシーケンスの生成について検討する。
CAD-Llamaは,パラメトリックな3次元CADモデルを生成するための事前学習LLMの強化を目的としたフレームワークである。
論文 参考訳(メタデータ) (2025-05-07T14:52:02Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z) - Optimizing CAD Models with Latent Space Manipulation [4.180840853105103]
本稿では,StyleCLIPを拡張し,CADモデルをボクセルモデルとして動作させる。
各種CADモデルの把持性を最適化し,自動化関連特徴を最適化するためのシステムの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-09T08:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。