論文の概要: From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach
- arxiv url: http://arxiv.org/abs/2412.11892v2
- Date: Tue, 17 Dec 2024 04:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:59:01.569748
- Title: From 2D CAD Drawings to 3D Parametric Models: A Vision-Language Approach
- Title(参考訳): 2次元CAD図面から3次元パラメトリックモデルへ:視覚・言語的アプローチ
- Authors: Xilin Wang, Jia Zheng, Yuanchao Hu, Hao Zhu, Qian Yu, Zihan Zhou,
- Abstract要約: 2次元CAD図面から3次元パラメトリックモデルを再構成するCAD2Programを提案する。
本稿では、2D CAD描画を元のフォーマットによらず画像として扱い、標準の ViT モデルで画像をエンコードする。
出力側では,本手法はテキスト形式で3次元パラメトリックモデルを記述する汎用言語を自動回帰予測する。
- 参考スコア(独自算出の注目度): 15.785592359384292
- License:
- Abstract: In this paper, we present CAD2Program, a new method for reconstructing 3D parametric models from 2D CAD drawings. Our proposed method is inspired by recent successes in vision-language models (VLMs), and departs from traditional methods which rely on task-specific data representations and/or algorithms. Specifically, on the input side, we simply treat the 2D CAD drawing as a raster image, regardless of its original format, and encode the image with a standard ViT model. We show that such an encoding scheme achieves competitive performance against existing methods that operate on vector-graphics inputs, while imposing substantially fewer restrictions on the 2D drawings. On the output side, our method auto-regressively predicts a general-purpose language describing 3D parametric models in text form. Compared to other sequence modeling methods for CAD which use domain-specific sequence representations with fixed-size slots, our text-based representation is more flexible, and can be easily extended to arbitrary geometric entities and semantic or functional properties. Experimental results on a large-scale dataset of cabinet models demonstrate the effectiveness of our method.
- Abstract(参考訳): 本稿では,2次元CAD図面から3次元パラメトリックモデルを再構成するCAD2Programを提案する。
提案手法は近年の視覚言語モデル(VLM)の成功に触発され,タスク固有のデータ表現やアルゴリズムに依存する従来の手法から逸脱する。
具体的には、入力側では、2D CAD描画を元のフォーマットによらず、ラスタ画像として扱い、標準のViTモデルで画像をエンコードする。
このような符号化方式は,ベクトル図形入力を動作させる既存の手法に対して,2次元描画の制約を大幅に減らした上で,競合性能を実現することを示す。
出力側では,本手法はテキスト形式で3次元パラメトリックモデルを記述する汎用言語を自動回帰予測する。
固定サイズのスロットを持つドメイン固有シーケンス表現を使用するCADの他のシーケンスモデリング手法と比較して、テキストベースの表現はより柔軟であり、任意の幾何学的実体や意味論や機能的特性に容易に拡張できる。
キャビネットモデルの大規模データセットによる実験結果から,本手法の有効性が示された。
関連論文リスト
- Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - Sketch3D: Style-Consistent Guidance for Sketch-to-3D Generation [55.73399465968594]
本稿では,テキスト記述と一致する色と入力スケッチに整合した形状のリアルな3Dアセットを生成するための,新しい生成パラダイムSketch3Dを提案する。
3つの戦略は、3次元ガウスの最適化、すなわち分布伝達機構による構造最適化、直感的なMSE損失による色最適化、CLIPに基づく幾何学的類似性損失によるスケッチ類似性最適化である。
論文 参考訳(メタデータ) (2024-04-02T11:03:24Z) - PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views
with Learnt Shape Programs [24.09764733540401]
本研究では、3つの正書法からの2次元線図を3次元CADモデルに自動変換する手法を開発した。
我々はトランスフォーマーに基づくシーケンス生成モデルにおける注意機構を利用して、入力と出力の間の柔軟なマッピングを学習する。
提案手法は,入力がノイズや不完全である場合,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2023-08-10T17:59:34Z) - Reconstructing editable prismatic CAD from rounded voxel models [16.03976415868563]
この課題を解決するために,新しいニューラルネットワークアーキテクチャを導入する。
本手法は形状を分解することでボクセル空間の入力幾何を再構成する。
推論の際には,まず2次元制約付きスケッチのデータベースを検索し,CADデータを取得する。
論文 参考訳(メタデータ) (2022-09-02T16:44:10Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Interactive 3D Character Modeling from 2D Orthogonal Drawings with
Annotations [9.83187539596669]
本研究では,2次元空間アノテーションに基づく図形からのインタラクティブな3次元キャラクタモデリング手法を提案する。
システムは入力図面間の部分対応を構築し、2次元画像のエッジ情報に応じてスプラインを網羅したベースメッシュを生成する。
2D空間の操作(つまりアノテーションの修正と修正)を繰り返すことで、ユーザーは望ましいキャラクタモデルを設計できる。
論文 参考訳(メタデータ) (2022-01-27T02:34:32Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - Translational Symmetry-Aware Facade Parsing for 3D Building
Reconstruction [11.263458202880038]
本稿では,深部ニューラルネットワーク改善のための新しい翻訳対称性に基づくアプローチを提案する。
本研究では,単一段ネットワークにおけるアンカーフリー検出を融合させる新しい手法を提案する。
我々はBlenderのような市販のレンダリングエンジンを使用して、手続きモデルを用いて現実的な高品質な3Dモデルを再構築する。
論文 参考訳(メタデータ) (2021-06-02T03:10:51Z) - Improved Modeling of 3D Shapes with Multi-view Depth Maps [48.8309897766904]
CNNを用いて3次元形状をモデル化するための汎用フレームワークを提案する。
オブジェクトの1つの深度画像だけで、3Dオブジェクトの高密度な多視点深度マップ表現を出力できる。
論文 参考訳(メタデータ) (2020-09-07T17:58:27Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。