論文の概要: GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image
- arxiv url: http://arxiv.org/abs/2510.17157v1
- Date: Mon, 20 Oct 2025 04:57:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.308927
- Title: GACO-CAD: Geometry-Augmented and Conciseness-Optimized CAD Model Generation from Single Image
- Title(参考訳): GACO-CAD:単一画像からの幾何学的・簡潔なCADモデル生成
- Authors: Yinghui Wang, Xinyu Zhang, Peng Du,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は2次元画像から3次元幾何学を正確に推定するのに依然として苦労している。
本稿では,新しい2段階後学習フレームワークGACO-CADを紹介する。
DeepCADとFusion360データセットの実験は、GACO-CADが最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 11.612167656421079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating editable, parametric CAD models from a single image holds great potential to lower the barriers of industrial concept design. However, current multi-modal large language models (MLLMs) still struggle with accurately inferring 3D geometry from 2D images due to limited spatial reasoning capabilities. We address this limitation by introducing GACO-CAD, a novel two-stage post-training framework. It is designed to achieve a joint objective: simultaneously improving the geometric accuracy of the generated CAD models and encouraging the use of more concise modeling procedures. First, during supervised fine-tuning, we leverage depth and surface normal maps as dense geometric priors, combining them with the RGB image to form a multi-channel input. In the context of single-view reconstruction, these priors provide complementary spatial cues that help the MLLM more reliably recover 3D geometry from 2D observations. Second, during reinforcement learning, we introduce a group length reward that, while preserving high geometric fidelity, promotes the generation of more compact and less redundant parametric modeling sequences. A simple dynamic weighting strategy is adopted to stabilize training. Experiments on the DeepCAD and Fusion360 datasets show that GACO-CAD achieves state-of-the-art performance under the same MLLM backbone, consistently outperforming existing methods in terms of code validity, geometric accuracy, and modeling conciseness.
- Abstract(参考訳): 一つの画像から編集可能なパラメトリックCADモデルを生成することは、工業的概念設計の障壁を低くする大きな可能性を秘めている。
しかし、現在のマルチモーダル大言語モデル(MLLM)は、空間的推論能力に制限があるため、2次元画像から正確に3次元幾何を推定することに苦慮している。
GACO-CADは,新しい2段階のポストトレーニングフレームワークである。
生成したCADモデルの幾何精度を同時に向上し、より簡潔なモデリング手順の使用を促進することを目的としている。
まず、教師付き微調整において、深度と表面の正規写像を、RGB画像と組み合わせ、マルチチャネル入力を形成する。
単視点再構成の文脈において、これらの先行は、MLLMが2次元観測からより確実に3次元幾何学を回復するのに役立つ補完的な空間的手がかりを提供する。
第二に、強化学習において、高い幾何学的忠実さを保ちながら、よりコンパクトで冗長でないパラメトリックモデリングシーケンスの生成を促進するグループ長報酬を導入する。
トレーニングを安定させるためには、単純な動的重み付け戦略が採用されている。
DeepCADとFusion360データセットの実験では、GACO-CADは同じMLLMバックボーンの下で最先端のパフォーマンスを達成し、コード妥当性、幾何精度、モデリング精度の点で既存の手法を一貫して上回っている。
関連論文リスト
- Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification [59.17489431187807]
本稿では,CLIPの階層的空間意味論を活用することで3次元幾何学的忠実度を高めるフレームワークを提案する。
本手法は3次元のクラスインクリメンタル学習を著しく改善し,テクスチャバイアスに対して優れた幾何コヒーレンスとロバスト性を実現する。
論文 参考訳(メタデータ) (2025-09-18T13:45:08Z) - CADCrafter: Generating Computer-Aided Design Models from Unconstrained Images [69.7768227804928]
CADCrafterは画像からパラメトリックCADモデル生成フレームワークで、合成テクスチャなしCADデータのみをトレーニングする。
多様な幾何学的特徴を正確に捉えるための幾何エンコーダを導入する。
提案手法は、実際の制約のないCADイメージを頑健に処理でき、また、目に見えない汎用オブジェクトにも一般化できる。
論文 参考訳(メタデータ) (2025-04-07T06:01:35Z) - CADDreamer: CAD Object Generation from Single-view Images [43.59340035126575]
既存の3D生成モデルは、しばしば過度に密度が高く非構造的なメッシュを生成する。
本稿では,CADオブジェクトの境界表現(B-rep)を単一画像から生成するための新しいアプローチであるCADDreamerを紹介する。
その結果,本手法は単視点画像から高品質CADオブジェクトを効果的に回収することを示した。
論文 参考訳(メタデータ) (2025-02-28T05:30:29Z) - CAD-GPT: Synthesising CAD Construction Sequence with Spatial Reasoning-Enhanced Multimodal LLMs [15.505120320280007]
本研究では,空間推論強化MLLMを用いたCAD合成法CAD-GPTを紹介する。
空間展開機構を用いて3次元空間位置と3次元スケッチ平面回転角を1次元言語特徴空間にマッピングする。
また、2Dスケッチ座標を適切な平面空間に識別し、空間開始位置、スケッチ方向、および2Dスケッチ座標変換の正確な決定を可能にする。
論文 参考訳(メタデータ) (2024-12-27T14:19:36Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Learning Versatile 3D Shape Generation with Improved AR Models [91.87115744375052]
自己回帰(AR)モデルはグリッド空間の関節分布をモデル化することにより2次元画像生成において印象的な結果を得た。
本稿では3次元形状生成のための改良された自己回帰モデル(ImAM)を提案する。
論文 参考訳(メタデータ) (2023-03-26T12:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。