論文の概要: CADSmith: Multi-Agent CAD Generation with Programmatic Geometric Validation
- arxiv url: http://arxiv.org/abs/2603.26512v1
- Date: Fri, 27 Mar 2026 15:23:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.566437
- Title: CADSmith: Multi-Agent CAD Generation with Programmatic Geometric Validation
- Title(参考訳): CADSmith: プログラム的幾何学的検証によるマルチエージェントCAD生成
- Authors: Jesse Barkley, Rumi Loghmani, Amir Barati Farimani,
- Abstract要約: テキスト・トゥ・CAD生成の既存の方法は、幾何的検証のない単一パスで動作するか、次元誤差を解決できない視覚的フィードバックに頼っている。
自然言語からCadQueryを生成するマルチエージェントパイプラインであるCADSmithを提案する。
次に、2つのネスト補正ループ(実行エラーを解消する内ループ)と、プログラム的幾何的検証に基礎を置く外ループという、反復的な洗練プロセスを実行する。
- 参考スコア(独自算出の注目度): 10.21291474099901
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for text-to-CAD generation either operate in a single pass with no geometric verification or rely on lossy visual feedback that cannot resolve dimensional errors. We present CADSmith, a multi-agent pipeline that generates CadQuery code from natural language. It then undergoes an iterative refinement process through two nested correction loops: an inner loop that resolves execution errors and an outer loop grounded in programmatic geometric validation. The outer loop combines exact measurements from the OpenCASCADE kernel (bounding box dimensions, volume, solid validity) with holistic visual assessment from an independent vision-language model Judge. This provides both the numerical precision and the high-level shape awareness needed to converge on the correct geometry. The system uses retrieval-augmented generation over API documentation rather than fine-tuning, maintaining a current database as the underlying CAD library evolves. We evaluate on a custom benchmark of 100 prompts in three difficulty tiers (T1 through T3) with three ablation configurations. Against a zero-shot baseline, CADSmith achieves a 100% execution rate (up from 95%), improves the median F1 score from 0.9707 to 0.9846, the median IoU from 0.8085 to 0.9629, and reduces the mean Chamfer Distance from 28.37 to 0.74, demonstrating that closed-loop refinement with programmatic geometric feedback substantially improves the quality and reliability of LLM-generated CAD models.
- Abstract(参考訳): テキスト・ツー・CAD生成の既存の方法は、幾何的検証のない単一パスで動作するか、次元誤差を解決できない視覚的フィードバックに頼っている。
自然言語からCadQueryを生成するマルチエージェントパイプラインであるCADSmithを提案する。
次に、2つのネスト補正ループ(実行エラーを解消する内ループ)と、プログラム的幾何的検証に基礎を置く外ループという、反復的な洗練プロセスを実行する。
外ループは、OpenCASCADEカーネル(バウンディングボックス次元、体積、確固たる妥当性)からの正確な測定と、独立視覚言語モデルジャッジからの全体的視覚的評価を組み合わせている。
これにより、正確な幾何学に収束するために必要な数値的精度と高レベルの形状認識の両方が得られる。
このシステムは、細調整ではなく、APIドキュメントの検索強化生成を使用し、基盤となるCADライブラリが進化するにつれて、現在のデータベースを維持する。
我々は,3つのアブレーション構成を持つ3つの困難層(T1からT3)において,100個のプロンプトのカスタムベンチマークで評価を行った。
ゼロショットベースラインに対して、CADSmithは100%実行率(95%から)を達成し、中央値のF1スコアを0.9707から0.9846に改善し、中央値のIoUを0.8085から0.9629に改善し、平均のChamfer Distanceを28.37から0.74に低減し、プログラム的幾何学的フィードバックによる閉ループ改善によりLCM生成CADモデルの品質と信頼性が大幅に向上することを示した。
関連論文リスト
- Do Foundation Models Know Geometry? Probing Frozen Features for Continuous Physical Measurement [0.0]
視覚言語モデルは、それらのテキスト経路が表現できないような幾何学を符号化する。
ロラ微調整(r=16, 2,000枚)は、このギャップを6.5度に縮める。
これらの知見は、単一の凍結したバックボーンがマルチタスク幾何学的センサーとして機能することを可能にした。
論文 参考訳(メタデータ) (2026-03-06T16:48:27Z) - Geometry OR Tracker: Universal Geometric Operating Room Tracking [61.399734016038614]
手術室(OR)では、世界規模のマルチビュー3Dトラッキングは、外科医の行動認識のような下流のアプリケーションをサポートする。
カメラのキャリブレーションとRGB-Dの登録は常に信頼性が低く、幾何学的不整合が生じる。
我々は、不正確なキャリブレーションをスケール一貫性と幾何学的に整合したカメラ設定に修正する2段階パイプラインであるGeometry OR Trackerを紹介する。
論文 参考訳(メタデータ) (2026-02-28T09:21:21Z) - Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Test3R: Learning to Reconstruct 3D at Test Time [58.0912500917036]
Test3Rは驚くほどシンプルなテストタイム学習技術で、幾何学的精度を大幅に向上させる。
本手法は従来の3次元再構成法や多視点深度推定法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-16T17:56:22Z) - 3D Face Reconstruction Error Decomposed: A Modular Benchmark for Fair and Fast Method Evaluation [30.625439879741847]
M3DFB (Modularized 3D Face Restruction Benchmark) のためのツールキットを提案する。
エラーの基本成分は分離され交換可能であり、それぞれの効果を定量化することができる。
そこで本研究では,メッシュトポロジの不整合性に対して計算効率の良い手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T15:28:43Z) - Geometry-Aware Score Distillation via 3D Consistent Noising and Gradient Consistency Modeling [31.945761751215134]
我々は,3次元一貫したノイズ発生,幾何に基づく勾配のゆらぎ,新しい勾配のゆらぎの損失を導入する。
我々は,テキスト・ツー・3次元生成タスクにおける幾何学的不整合を最小限のコストで解決し,既存のスコア蒸留モデルとの整合性を実現した。
論文 参考訳(メタデータ) (2024-06-24T14:58:17Z) - PS-CAD: Local Geometry Guidance via Prompting and Selection for CAD Reconstruction [86.726941702182]
再構成ネットワークPS-CADに幾何学的ガイダンスを導入する。
我々は、現在の再構成が点雲としての完備モデルと異なる曲面の幾何学を提供する。
第二に、幾何学的解析を用いて、候補面に対応する平面的プロンプトの集合を抽出する。
論文 参考訳(メタデータ) (2024-05-24T03:43:55Z) - Reconstructing editable prismatic CAD from rounded voxel models [16.03976415868563]
この課題を解決するために,新しいニューラルネットワークアーキテクチャを導入する。
本手法は形状を分解することでボクセル空間の入力幾何を再構成する。
推論の際には,まず2次元制約付きスケッチのデータベースを検索し,CADデータを取得する。
論文 参考訳(メタデータ) (2022-09-02T16:44:10Z) - Enhancing Geometric Factors in Model Learning and Inference for Object
Detection and Instance Segmentation [91.12575065731883]
境界ボックス回帰および非最大抑圧(NMS)における幾何学的要素の強化を目的とした完全IoU損失とクラスタNMSを提案する。
CIoU損失を用いたディープラーニングモデルのトレーニングは、広く採用されている$ell_n$-norm損失とIoUベースの損失と比較して、一貫性のあるAPとARの改善をもたらす。
クラスタ-NMSは、純粋なGPU実装のため非常に効率的であり、APとARの両方を改善するために幾何学的要素を組み込むことができる。
論文 参考訳(メタデータ) (2020-05-07T16:00:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。