論文の概要: Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization
- arxiv url: http://arxiv.org/abs/2408.01437v1
- Date: Fri, 19 Jul 2024 06:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 05:08:47.990394
- Title: Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization
- Title(参考訳): Img2CAD:VLM支援条件因子化による画像からのリバースエンジニアリング3次元CADモデル
- Authors: Yang You, Mikaela Angelina Uy, Jiaqi Han, Rahul Thomas, Haotong Zhang, Suya You, Leonidas Guibas,
- Abstract要約: 画像からのリバースエンジニアリング3Dコンピュータ支援設計(CAD)モデルは、多くのダウンストリームアプリケーションにとって重要な課題である。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
本稿では,連続的な属性値を予測する意味を持つ離散構造を条件としたTrAssemblerを提案する。
- 参考スコア(独自算出の注目度): 12.12975824816803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverse engineering 3D computer-aided design (CAD) models from images is an important task for many downstream applications including interactive editing, manufacturing, architecture, robotics, etc. The difficulty of the task lies in vast representational disparities between the CAD output and the image input. CAD models are precise, programmatic constructs that involves sequential operations combining discrete command structure with continuous attributes -- making it challenging to learn and optimize in an end-to-end fashion. Concurrently, input images introduce inherent challenges such as photo-metric variability and sensor noise, complicating the reverse engineering process. In this work, we introduce a novel approach that conditionally factorizes the task into two sub-problems. First, we leverage large foundation models, particularly GPT-4V, to predict the global discrete base structure with semantic information. Second, we propose TrAssembler that conditioned on the discrete structure with semantics predicts the continuous attribute values. To support the training of our TrAssembler, we further constructed an annotated CAD dataset of common objects from ShapeNet. Putting all together, our approach and data demonstrate significant first steps towards CAD-ifying images in the wild. Our project page: https://anonymous123342.github.io/
- Abstract(参考訳): 画像からのリバースエンジニアリング3Dコンピュータ支援デザイン(CAD)モデルは、インタラクティブな編集、製造、アーキテクチャ、ロボット工学など、多くの下流アプリケーションにとって重要なタスクである。
タスクの難しさはCAD出力と画像入力との間の大きな表現格差にある。
CADモデルは、個別のコマンド構造と連続的な属性を組み合わせたシーケンシャルな操作を含む、正確でプログラム的な構成です。
同時に、入力画像は、リバースエンジニアリングプロセスを複雑にすることで、光度可変性やセンサノイズといった固有の課題を導入している。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
まず,大規模基盤モデル,特にGPT-4Vを活用し,意味情報を用いてグローバルな離散基底構造を予測する。
次に,個別構造にセマンティクスを組み込んだTrAssemblerを提案する。
TrAssemblerのトレーニングを支援するため,ShapeNetから共通オブジェクトの注釈付きCADデータセットを構築した。
まとめると、我々のアプローチとデータにより、野生のCAD画像化に向けた重要な第一歩が示される。
プロジェクトページ:https://anonymous123342.github.io/
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - PS-CAD: Local Geometry Guidance via Prompting and Selection for CAD Reconstruction [86.726941702182]
再構成ネットワークPS-CADに幾何学的ガイダンスを導入する。
我々は、現在の再構成が点雲としての完備モデルと異なる曲面の幾何学を提供する。
第二に、幾何学的解析を用いて、候補面に対応する平面的プロンプトの集合を抽出する。
論文 参考訳(メタデータ) (2024-05-24T03:43:55Z) - Point2CAD: Reverse Engineering CAD Models from 3D Point Clouds [26.10631058349939]
本稿では,分割点雲と構造CADモデルのギャップを埋めるハイブリッド解析ニューラルネットワーク再構成手法を提案する。
また,自由曲面の暗黙的表現を新たに提案し,CAD再構成方式の性能向上を図る。
論文 参考訳(メタデータ) (2023-12-07T08:23:44Z) - DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image [34.47379913018661]
本稿では,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。
我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。
提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:10:21Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Automatic Reverse Engineering: Creating computer-aided design (CAD)
models from multi-view images [0.0]
自動リバースエンジニアリングタスクのための新しいネットワークを提案する。
複数の有効なCADモデルの再構築に成功して概念実証を行う。
ネットワークのいくつかの機能をこのドメインに転送できることが示されている。
論文 参考訳(メタデータ) (2023-09-23T06:42:09Z) - PPI-NET: End-to-End Parametric Primitive Inference [24.31083483088741]
工学の応用では、線、円、弧、点を総称してプリミティブと呼ぶ。
本稿では,手書きスケッチ画像からパラメトリックプリミティブを推定するための,効率的かつ高精度なエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-08-03T03:50:49Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Unifying Flow, Stereo and Depth Estimation [121.54066319299261]
本稿では3つの動作と3次元知覚タスクのための統一的な定式化とモデルを提案する。
これら3つのタスクを、統一された高密度対応マッチング問題として定式化する。
我々のモデルは、モデルアーキテクチャとパラメータがタスク間で共有されているため、自然にクロスタスク転送を可能にします。
論文 参考訳(メタデータ) (2022-11-10T18:59:54Z) - Reconstructing editable prismatic CAD from rounded voxel models [16.03976415868563]
この課題を解決するために,新しいニューラルネットワークアーキテクチャを導入する。
本手法は形状を分解することでボクセル空間の入力幾何を再構成する。
推論の際には,まず2次元制約付きスケッチのデータベースを検索し,CADデータを取得する。
論文 参考訳(メタデータ) (2022-09-02T16:44:10Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。