論文の概要: GIFT: Bootstrapping Image-to-CAD Program Synthesis via Geometric Feedback
- arxiv url: http://arxiv.org/abs/2603.27448v1
- Date: Sat, 28 Mar 2026 23:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.962524
- Title: GIFT: Bootstrapping Image-to-CAD Program Synthesis via Geometric Feedback
- Title(参考訳): GIFT:幾何学的フィードバックによる画像とCADプログラムのブートストラップ
- Authors: Giorgio Giannone, Anna Clare Doris, Amin Heyrani Nobari, Kai Xu, Akash Srivastava, Faez Ahmed,
- Abstract要約: GIFTは、幾何学的フィードバックを利用して、テスト時間計算を高品質なトレーニングサンプルのブートストラップセットに変換するフレームワークである。
強い教師付きベースラインに対して平均IoUを12%改善し、より複雑なマルチモーダルシステムと競合し続ける。
- 参考スコア(独自算出の注目度): 16.42151644490948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating executable CAD programs from images requires alignment between visual geometry and symbolic program representations, a capability that current methods fail to learn reliably as design complexity increases. Existing fine-tuning approaches rely on either limited supervised datasets or expensive post-training pipelines, resulting in brittle systems that restrict progress in generative CAD design. We argue that the primary bottleneck lies not in model or algorithmic capacity, but in the scarcity of diverse training examples that align visual geometry with program syntax. This limitation is especially acute because the collection of diverse and verified engineering datasets is both expensive and difficult to scale, constraining the development of robust generative CAD models. We introduce Geometric Inference Feedback Tuning (GIFT), a data augmentation framework that leverages geometric feedback to turn test-time compute into a bootstrapped set of high-quality training samples. GIFT combines two mechanisms: Soft-Rejection Sampling (GIFT-REJECT), which retains diverse high-fidelity programs beyond exact ground-truth matches, and Failure-Driven Augmentation (GIFT-FAIL), which converts near-miss predictions into synthetic training examples that improve robustness on challenging geometries. By amortizing inference-time search into the model parameters, GIFT captures the benefits of test-time scaling while reducing inference compute by 80%. It improves mean IoU by 12% over a strong supervised baseline and remains competitive with more complex multimodal systems, without requiring additional human annotation or specialized architectures.
- Abstract(参考訳): 画像から実行可能なCADプログラムを生成するには、視覚幾何学と記号的プログラム表現の整合が必要である。
既存の微調整アプローチは、限られた教師付きデータセットまたは高価な後トレーニングパイプラインに依存しており、結果として、ジェネレーティブCAD設計の進歩を制限する脆弱なシステムとなっている。
主なボトルネックは、モデルやアルゴリズムの能力ではなく、視覚幾何学とプログラムの構文を整合させる多様なトレーニング例の不足にある、と我々は主張する。
この制限は、多種多様な検証されたエンジニアリングデータセットの収集が高価でスケールが困難であり、堅牢な生成CADモデルの開発を制限しているため、特に深刻である。
幾何学的フィードバックを活用するデータ拡張フレームワークであるGeometric Inference Feedback Tuning (GIFT)を導入し、テスト時間計算を高品質なトレーニングサンプルのブートストラップセットに変換する。
GIFTは2つのメカニズムを組み合わせる: ソフトリジェクションサンプリング(GIFT-REJECT)は、正確な地平整合を超える多様な高忠実なプログラムを保持し、失敗駆動拡張(GIFT-FAIL)は、近距離推定を、挑戦的な測地における堅牢性を改善する合成トレーニング例に変換する。
モデルパラメータへの推論時間探索の補正によって、GIFTは、推論計算を80%削減しながら、テスト時間スケーリングの利点を捉えている。
強い教師付きベースラインに対して平均IoUを12%改善し、人間のアノテーションや特殊なアーキテクチャを必要とせずに、より複雑なマルチモーダルシステムと競合し続ける。
関連論文リスト
- Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - GLUE: Generative Latent Unification of Expertise-Informed Engineering Models [3.005158583027536]
GLUE(Generative Latent Unification of Expertise-Informed Engineering Models)を紹介する。
GLUEは、事前訓練された凍結したサブシステムジェネレータをオーケストレーションし、システムレベルの実現可能性、最適性、多様性を強制する。
5つの結合制約を持つUAV設計問題において、データ駆動型アプローチは多種多様な高性能な設計をもたらすが、制約を確実に満たすためには大きなデータセットを必要とする。
論文 参考訳(メタデータ) (2025-12-22T15:23:19Z) - ReCAD: Reinforcement Learning Enhanced Parametric CAD Model Generation with Vision-Language Models [16.220781575918256]
ReCADは、マルチモーダル入力から正確なパラメトリックコンピュータ支援設計(CAD)モデルを生成するために、プレトレーニング済みの大型モデル(PLM)をブートストラップする強化学習(RL)フレームワークである。
我々は階層的な原始的な学習プロセスを用いて、統一報酬関数の下で構造的および構成的スキルを教える。
ReCADは、テキスト・トゥ・CADタスクと画像・トゥ・CADタスクの両方で新しい最先端のタスクを設定し、分布内および分布外設定の幾何学的精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-12-06T07:12:56Z) - TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics [53.442362491589726]
本稿では、視覚言語モデル(VLM)を幾何学コンピュータに変換する新しいフレームワークであるTIGeR(Tool-Integrated Geometric Reasoning)を提案する。
TIGeRは、ニューラルネットワーク内で複雑な幾何学的操作を内部化しようとするのではなく、幾何学的推論要求を認識するためにモデルに権限を与える。
TIGeRは、実世界のロボット操作タスクにおいて、センチメートルレベルの精度を示しながら、幾何学的推論ベンチマーク上でSOTA性能を達成することを示す。
論文 参考訳(メタデータ) (2025-10-08T16:20:23Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - GenCAD-3D: CAD Program Generation using Multimodal Latent Space Alignment and Synthetic Dataset Balancing [3.5539239472975583]
我々は,3次元CADプログラムを生成するマルチモーダル生成フレームワークであるGenCAD-3Dを紹介する。
また、データセットのバランスと拡張を目的とした合成データ拡張戦略であるSynthBalも紹介する。
実験の結果,SynthBalは再構成精度を大幅に向上し,無効なCADモデルの生成を低減し,高精度なジオメトリの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-09-17T19:10:44Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Symplectic Autoencoders for Model Reduction of Hamiltonian Systems [0.0]
長期の数値安定性を確保するためには,システムに関連するシンプレクティックな構造を維持することが重要である。
本稿では,次元削減のための確立されたツールであるオートエンコーダの精神の中で,新しいニューラルネットワークアーキテクチャを提案する。
ネットワークのトレーニングには,非標準勾配降下法を適用した。
論文 参考訳(メタデータ) (2023-12-15T18:20:25Z) - Scalable Deep-Learning-Accelerated Topology Optimization for Additively
Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。
これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。
我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文 参考訳(メタデータ) (2020-11-28T17:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。