論文の概要: Generating CAD Code with Vision-Language Models for 3D Designs
- arxiv url: http://arxiv.org/abs/2410.05340v1
- Date: Mon, 7 Oct 2024 02:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:17:28.544322
- Title: Generating CAD Code with Vision-Language Models for 3D Designs
- Title(参考訳): 3次元設計のための視覚言語モデルを用いたCADコード生成
- Authors: Kamel Alrashedy, Pradyumna Tambwekar, Zulfiqar Zaidi, Megan Langwasser, Wei Xu, Matthew Gombolay,
- Abstract要約: CADCodeVerifyはCADコードから生成された3Dオブジェクトを反復的に検証し、改善するための新しいアプローチである。
提案手法は,視覚言語モデルに一連の検証質問の生成と回答を促すことで,改善的なフィードバックを生成する。
その結果,CADCodeVerifyは視覚的フィードバックの提供,3Dオブジェクトの構造の向上,コンパイルプログラムの成功率の向上などにより,VLMの性能向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 6.532952167132679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI has transformed the fields of Design and Manufacturing by providing efficient and automated methods for generating and modifying 3D objects. One approach involves using Large Language Models (LLMs) to generate Computer- Aided Design (CAD) scripting code, which can then be executed to render a 3D object; however, the resulting 3D object may not meet the specified requirements. Testing the correctness of CAD generated code is challenging due to the complexity and structure of 3D objects (e.g., shapes, surfaces, and dimensions) that are not feasible in code. In this paper, we introduce CADCodeVerify, a novel approach to iteratively verify and improve 3D objects generated from CAD code. Our approach works by producing ameliorative feedback by prompting a Vision-Language Model (VLM) to generate and answer a set of validation questions to verify the generated object and prompt the VLM to correct deviations. To evaluate CADCodeVerify, we introduce, CADPrompt, the first benchmark for CAD code generation, consisting of 200 natural language prompts paired with expert-annotated scripting code for 3D objects to benchmark progress. Our findings show that CADCodeVerify improves VLM performance by providing visual feedback, enhancing the structure of the 3D objects, and increasing the success rate of the compiled program. When applied to GPT-4, CADCodeVerify achieved a 7.30% reduction in Point Cloud distance and a 5.0% improvement in success rate compared to prior work
- Abstract(参考訳): ジェネレーティブAIは、3Dオブジェクトの生成と修正のための効率的で自動化された方法を提供することで、デザインと製造の分野を変革した。
1つのアプローチは、Large Language Models(LLM)を使用してCAD(Computer-Aided Design)スクリプティングコードを生成することである。
CAD生成コードの正確性をテストするのは、コードでは不可能な3Dオブジェクト(例えば、形状、表面、寸法)の複雑さと構造のためである。
本稿ではCADコードから生成された3Dオブジェクトを反復的に検証・改善するCADCodeVerifyを提案する。
提案手法は,視覚言語モデル(VLM)に一連の検証質問を生成・回答させ,生成したオブジェクトを検証し,VLMに逸脱の修正を促すことで改善的なフィードバックを生成する。
CADCodeVerifyを評価するために,CADコード生成のための最初のベンチマークであるCADPromptを紹介した。
その結果,CADCodeVerifyは視覚的フィードバックの提供,3Dオブジェクトの構造の向上,コンパイルプログラムの成功率の向上などにより,VLMの性能向上を実現していることがわかった。
GPT-4に適用した場合、CADCodeVerifyはポイントクラウド距離を7.30%削減し、以前の作業と比べて5.0%改善した。
関連論文リスト
- Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - GenCAD: Image-Conditioned Computer-Aided Design Generation with
Transformer-Based Contrastive Representation and Diffusion Priors [4.485378844492069]
GenCADは画像入力をパラメトリックCADコマンドシーケンスに変換する生成モデルである。
生成した3次元形状の精度と変調性の観点から、既存の最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-09-08T23:49:11Z) - OpenECAD: An Efficient Visual Language Model for Editable 3D-CAD Design [1.481550828146527]
OpenECADモデル(0.55B, 0.89B, 2.4B, 3.1B)を作成するための事前学習モデルの微調整を行った。
OpenECADモデルは、入力として3Dデザインの画像を処理することができ、高度に構造化された2Dスケッチと3D構築コマンドを生成する。
これらの出力は、プロジェクトファイルを生成するために既存のCADツールのAPIで直接使用することができる。
論文 参考訳(メタデータ) (2024-06-14T10:47:52Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - AutoCAD: Automatically Generating Counterfactuals for Mitigating
Shortcut Learning [70.70393006697383]
完全自動かつタスクに依存しないCAD生成フレームワークであるAutoCADについて述べる。
本稿では,完全に自動化されたタスクに依存しないCAD生成フレームワークであるAutoCADを提案する。
論文 参考訳(メタデータ) (2022-11-29T13:39:53Z) - Point2Seq: Detecting 3D Objects as Sequences [58.63662049729309]
我々は、ポイントクラウドから3次元オブジェクトを検出するためのシンプルで効果的なフレームワーク、Point2Seqを提案する。
我々は,各3Dオブジェクトを単語列とみなし,その3Dオブジェクト検出タスクを,自動回帰的に3Dシーンからの単語の復号化として再構成する。
論文 参考訳(メタデータ) (2022-03-25T00:20:31Z) - DeepCAD: A Deep Generative Network for Computer-Aided Design Models [37.655225142981564]
形状をコンピュータ支援設計(CAD)操作のシーケンスとして記述した形状表現の3次元生成モデルについて述べる。
CAD操作と自然言語の類似性について,トランスフォーマーに基づくCAD生成ネットワークを提案する。
論文 参考訳(メタデータ) (2021-05-20T03:29:18Z) - PvDeConv: Point-Voxel Deconvolution for Autoencoding CAD Construction in
3D [23.87757211847093]
コンピュータ支援設計(cad)モデルの基盤となる形状を密に記述した10k点の高分解能点雲を合成することを学ぶ。
50k以上のCADモデルとその対応する3Dメッシュを含む新しい専用データセット、CC3Dを紹介します。
このデータセットは、3Dスキャン(CADモデル)のペアからサンプリングされた点雲の畳み込みオートエンコーダを学ぶために使用される。
論文 参考訳(メタデータ) (2021-01-12T14:14:13Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。