論文の概要: CAD-Estate: Large-scale CAD Model Annotation in RGB Videos
- arxiv url: http://arxiv.org/abs/2306.09011v2
- Date: Mon, 14 Aug 2023 12:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 19:31:09.231683
- Title: CAD-Estate: Large-scale CAD Model Annotation in RGB Videos
- Title(参考訳): CAD-Estate:RGBビデオにおける大規模CADモデルアノテーション
- Authors: Kevis-Kokitsi Maninis, Stefan Popov, Matthias Nie{\ss}ner, Vittorio
Ferrari
- Abstract要約: 本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。
データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。
本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。
- 参考スコア(独自算出の注目度): 34.63782303927944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for annotating videos of complex multi-object scenes with
a globally-consistent 3D representation of the objects. We annotate each object
with a CAD model from a database, and place it in the 3D coordinate frame of
the scene with a 9-DoF pose transformation. Our method is semi-automatic and
works on commonly-available RGB videos, without requiring a depth sensor. Many
steps are performed automatically, and the tasks performed by humans are
simple, well-specified, and require only limited reasoning in 3D. This makes
them feasible for crowd-sourcing and has allowed us to construct a large-scale
dataset by annotating real-estate videos from YouTube. Our dataset CAD-Estate
offers 101k instances of 12k unique CAD models placed in the 3D representations
of 20k videos. In comparison to Scan2CAD, the largest existing dataset with CAD
model annotations on real scenes, CAD-Estate has 7x more instances and 4x more
unique CAD models. We showcase the benefits of pre-training a Mask2CAD model on
CAD-Estate for the task of automatic 3D object reconstruction and pose
estimation, demonstrating that it leads to performance improvements on the
popular Scan2CAD benchmark. The dataset is available at
https://github.com/google-research/cad-estate.
- Abstract(参考訳): 本稿では,オブジェクトのグローバルな3D表現を用いて,複雑なマルチオブジェクトシーンのビデオに注釈を付ける手法を提案する。
データベースから各オブジェクトにCADモデルをアノテートし,9-DoFのポーズ変換でシーンの3次元座標フレームに配置する。
本手法は半オートマチックであり,奥行きセンサを必要とせず,一般に利用可能なRGBビデオで動作する。
多くのステップが自動的に実行され、人間が行うタスクは単純で、よく特定されており、3dでは限定的な推論しか必要ありません。
これにより、クラウドソーシングが実現可能となり、YouTubeから不動産ビデオに注釈を付けることで、大規模なデータセットの構築を可能にしました。
我々のデータセットCAD-Estateは、20kビデオの3D表現に配置された12kのユニークなCADモデルの101kインスタンスを提供する。
Scan2CADはCADモデルアノテーションを実シーンで使用する最大規模のデータセットであるのに対し、CAD-Estateは7倍のインスタンスと4倍のユニークなCADモデルを持っている。
CAD-Estate上でのMask2CADモデルの事前学習による3次元オブジェクトの自動再構成とポーズ推定の利点を示し,Scan2CADベンチマークの性能向上を実証した。
データセットはhttps://github.com/google-research/cad-estateで利用可能である。
関連論文リスト
- Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry [12.265852643914439]
編集可能なパラメータを生成するために2次元画像入力を用いた最初の知識であるImg2CADを提案する。
Img2CADはAI 3D再構成とCAD表現のシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2024-10-04T13:27:52Z) - CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。
CAT3Dは1分で3Dシーン全体を作成できる。
論文 参考訳(メタデータ) (2024-05-16T17:59:05Z) - FastCAD: Real-Time CAD Retrieval and Alignment from Scans and Videos [4.36478623815937]
FastCADは、シーン内のすべてのオブジェクトに対してCADモデルを同時に取得およびアライメントするリアルタイムメソッドである。
単段法は,RGB-Dスキャンで動作している他の手法と比較して,推論時間を50倍に高速化する。
これにより、10FPSでビデオからCADモデルに基づく正確な再構成をリアルタイムに生成できる。
論文 参考訳(メタデータ) (2024-03-22T12:20:23Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - SECAD-Net: Self-Supervised CAD Reconstruction by Learning Sketch-Extrude
Operations [21.000539206470897]
SECAD-Netは、コンパクトで使いやすいCADモデルの再構築を目的とした、エンドツーエンドのニューラルネットワークである。
本研究は,CAD再構築の手法など,最先端の代替手段よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-19T09:26:03Z) - Unsupervised Volumetric Animation [54.52012366520807]
非剛性変形物体の教師なし3次元アニメーションのための新しい手法を提案する。
本手法は,RGBビデオのみからオブジェクトの3次元構造とダイナミックスを学習する。
我々は,本モデルを用いて,単一ボリュームまたは少数の画像からアニマタブルな3Dオブジェクトを得ることができることを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:54Z) - PvDeConv: Point-Voxel Deconvolution for Autoencoding CAD Construction in
3D [23.87757211847093]
コンピュータ支援設計(cad)モデルの基盤となる形状を密に記述した10k点の高分解能点雲を合成することを学ぶ。
50k以上のCADモデルとその対応する3Dメッシュを含む新しい専用データセット、CC3Dを紹介します。
このデータセットは、3Dスキャン(CADモデル)のペアからサンプリングされた点雲の畳み込みオートエンコーダを学ぶために使用される。
論文 参考訳(メタデータ) (2021-01-12T14:14:13Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。