論文の概要: EvoCAD: Evolutionary CAD Code Generation with Vision Language Models
- arxiv url: http://arxiv.org/abs/2510.11631v1
- Date: Mon, 13 Oct 2025 17:12:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.473151
- Title: EvoCAD: Evolutionary CAD Code Generation with Vision Language Models
- Title(参考訳): EvoCAD:視覚言語モデルを用いた進化的CADコード生成
- Authors: Tobias Preintner, Weixuan Yuan, Adrian König, Thomas Bäck, Elena Raponi, Niki van Stein,
- Abstract要約: EvoCAD(エボCAD)は、コンピュータ支援設計(CAD)オブジェクトをシンボル表現で生成する手法である。
オイラー特性によって定義される位相特性に基づく2つの新しい指標を導入し、3次元オブジェクト間の意味的類似性を捉える。
- 参考スコア(独自算出の注目度): 1.9233158329692603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Combining large language models with evolutionary computation algorithms represents a promising research direction leveraging the remarkable generative and in-context learning capabilities of LLMs with the strengths of evolutionary algorithms. In this work, we present EvoCAD, a method for generating computer-aided design (CAD) objects through their symbolic representations using vision language models and evolutionary optimization. Our method samples multiple CAD objects, which are then optimized using an evolutionary approach with vision language and reasoning language models. We assess our method using GPT-4V and GPT-4o, evaluating it on the CADPrompt benchmark dataset and comparing it to prior methods. Additionally, we introduce two new metrics based on topological properties defined by the Euler characteristic, which capture a form of semantic similarity between 3D objects. Our results demonstrate that EvoCAD outperforms previous approaches on multiple metrics, particularly in generating topologically correct objects, which can be efficiently evaluated using our two novel metrics that complement existing spatial metrics.
- Abstract(参考訳): 大規模言語モデルと進化計算アルゴリズムを組み合わせることは、LLMの顕著な生成および文脈内学習能力と進化アルゴリズムの強みを活かした、有望な研究の方向性を示す。
本研究では,視覚言語モデルと進化的最適化を用いた記号表現を用いて,コンピュータ支援設計(CAD)オブジェクトを生成する手法であるEvoCADを提案する。
提案手法は複数のCADオブジェクトをサンプリングし,視覚言語と推論言語モデルを用いた進化的アプローチを用いて最適化する。
GPT-4VとGPT-4oを用いて評価を行い、CADPromptベンチマークデータセット上で評価し、先行手法と比較した。
さらに,3次元オブジェクト間の意味的類似性を捉えたオイラー特性によって定義される位相特性に基づく2つの新しい指標を導入する。
以上の結果から,エボCADは,特にトポロジカルなオブジェクトの生成において,既存の空間的メトリクスを補完する2つの新しい指標を用いて効率的に評価できる手法として,従来の手法よりも優れていたことが示唆された。
関連論文リスト
- Hierarchical Neural Semantic Representation for 3D Semantic Correspondence [72.8101601086805]
階層型ニューラルセマンティック表現(HNSR)を設計し,高次構造と多分解能局所幾何学的特徴を捉える。
第2に,グローバルなセマンティック特徴を用いた粗いセマンティック対応を確立する,プログレッシブなグローバル-ローカルマッチング戦略を設計する。
第3に,本フレームワークはトレーニングフリーで,様々なトレーニング済みの3D生成バックボーンと広範囲に互換性があり,多様な形状カテゴリにまたがる強力な一般化が示されている。
論文 参考訳(メタデータ) (2025-09-22T07:23:07Z) - Active Learning and Explainable AI for Multi-Objective Optimization of Spin Coated Polymers [0.1486780669929473]
特定の機械的特性を達成するためのスピンコーティングポリマー薄膜は、本質的に多目的最適化問題である。
本稿では,PyePAL(PyePAL)と可視化,説明可能なAI技術を統合し,処理パラメータを最適化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T20:35:59Z) - Human-in-the-Loop: Quantitative Evaluation of 3D Models Generation by Large Language Models [0.0]
本稿では,大規模言語モデルの生成した3次元モデルの定量的評価のためのループ・フレームワークの人間について紹介する。
本稿では, 体積精度, 表面アライメント, 次元忠実度, トポロジ的複雑度など, 類似度と複雑性の総合的な指標スイートを提案する。
本研究は,コードレベルが完璧に再構築され,意味的豊かさが向上し,生成精度が向上したことを示す。
論文 参考訳(メタデータ) (2025-09-06T11:04:15Z) - E-Gen: Leveraging E-Graphs to Improve Continuous Representations of Symbolic Expressions [0.33748750222488655]
大規模かつ多様な数学的表現データセットを合成する新しい電子グラフベースのデータセット生成スキームであるE-Genを紹介する。
数学的に等価な表現を生成するための2つの戦略と、等価な表現を明示的にグループ化するための対照的な学習を用いて埋め込みモデルを訓練する。
組込み型アプローチは、いくつかのタスクにおいて最先端の大規模言語モデルよりも優れていることを実証する。
論文 参考訳(メタデータ) (2025-01-24T22:39:08Z) - From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach [15.785592359384292]
2次元CAD図面から3次元パラメトリックモデルを再構成するCAD2Programを提案する。
本稿では、2D CAD描画を元のフォーマットによらず画像として扱い、標準の ViT モデルで画像をエンコードする。
出力側では,本手法はテキスト形式で3次元パラメトリックモデルを記述する汎用言語を自動回帰予測する。
論文 参考訳(メタデータ) (2024-12-16T15:41:14Z) - UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。
以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。
多様な3つの視覚課題に対するUViMの有効性を実証する。
論文 参考訳(メタデータ) (2022-05-20T17:47:59Z) - UnProjection: Leveraging Inverse-Projections for Visual Analytics of
High-Dimensional Data [63.74032987144699]
提案するNNInvは,プロジェクションやマッピングの逆を近似する深層学習技術である。
NNInvは、2次元投影空間上の任意の点から高次元データを再構成することを学び、ユーザーは視覚分析システムで学習した高次元表現と対話することができる。
論文 参考訳(メタデータ) (2021-11-02T17:11:57Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。