論文の概要: OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation
- arxiv url: http://arxiv.org/abs/2301.07525v1
- Date: Wed, 18 Jan 2023 18:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:50:53.201928
- Title: OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation
- Title(参考訳): OmniObject3D: 現実的知覚・再構成・生成のための大語彙3Dオブジェクトデータセット
- Authors: Tong Wu, Jiarui Zhang, Xiao Fu, Yuxin Wang, Jiawei Ren, Liang Pan,
Wayne Wu, Lei Yang, Jiaqi Wang, Chen Qian, Dahua Lin, Ziwei Liu
- Abstract要約: OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
- 参考スコア(独自算出の注目度): 107.71752592196138
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in modeling 3D objects mostly rely on synthetic datasets due
to the lack of large-scale realscanned 3D databases. To facilitate the
development of 3D perception, reconstruction, and generation in the real world,
we propose OmniObject3D, a large vocabulary 3D object dataset with massive
high-quality real-scanned 3D objects. OmniObject3D has several appealing
properties: 1) Large Vocabulary: It comprises 6,000 scanned objects in 190
daily categories, sharing common classes with popular 2D datasets (e.g.,
ImageNet and LVIS), benefiting the pursuit of generalizable 3D representations.
2) Rich Annotations: Each 3D object is captured with both 2D and 3D sensors,
providing textured meshes, point clouds, multiview rendered images, and
multiple real-captured videos. 3) Realistic Scans: The professional scanners
support highquality object scans with precise shapes and realistic appearances.
With the vast exploration space offered by OmniObject3D, we carefully set up
four evaluation tracks: a) robust 3D perception, b) novel-view synthesis, c)
neural surface reconstruction, and d) 3D object generation. Extensive studies
are performed on these four benchmarks, revealing new observations, challenges,
and opportunities for future research in realistic 3D vision.
- Abstract(参考訳): 3Dオブジェクトのモデリングの最近の進歩は、大規模なリアルタイム3Dデータベースがないため、主に合成データセットに依存している。
実世界の3D知覚・再構築・生成を容易にするため,我々は,大規模で高品質な3Dオブジェクト・データセットであるOmniObject3Dを提案する。
OmniObject3Dにはいくつかの魅力的な特性がある。
1)大語彙:190のカテゴリーで6,000個のスキャンされたオブジェクトで構成され、一般的な2Dデータセット(イメージネットやLVISなど)と共通クラスを共有し、一般化可能な3D表現を追求する。
2)リッチアノテーション: 各3Dオブジェクトは2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
3) リアルスキャン: プロのスキャナは、正確な形状とリアルな外観の高品質なオブジェクトスキャンをサポートする。
OmniObject3Dが提供する広大な探査スペースでは、慎重に4つの評価トラックを設定しました。
a)ロバストな3d知覚
b) 新規ビュー合成
c) 神経表面の再構築及び
d) 3dオブジェクト生成。
これら4つのベンチマークで広範な研究が行われ、リアルな3dビジョンにおける新しい観察、挑戦、将来の研究の機会が明らかになった。
関連論文リスト
- ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文 参考訳(メタデータ) (2024-06-13T22:44:26Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。
本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。
ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文 参考訳(メタデータ) (2023-09-14T17:59:53Z) - 3D-LLM: Injecting the 3D World into Large Language Models [60.43823088804661]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は、常識推論のような複数のタスクで優れていることが証明されている。
本稿では,大規模言語モデルに3Dワールドを注入し,新しい3D-LLMのファミリーを導入することを提案する。
具体的には、3D-LLMは3Dポイントクラウドとその機能を入力として取り込んで、さまざまな3D関連タスクを実行することができる。
論文 参考訳(メタデータ) (2023-07-24T17:59:02Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - MobileBrick: Building LEGO for 3D Reconstruction on Mobile Devices [78.20154723650333]
高品質な3次元地下構造は3次元物体再構成評価に不可欠である。
本稿では,モバイルデバイスを用いた新しいマルチビューRGBDデータセットを提案する。
我々は,ハイエンド3Dスキャナーを使わずに,精密な3次元地下構造が得られる。
論文 参考訳(メタデータ) (2023-03-03T14:02:50Z) - Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild [32.05421669957098]
大規模なデータセットとスケーラブルなソリューションは、2D認識において前例のない進歩をもたらした。
我々はOmni3Dと呼ばれる大規模なベンチマークを導入することで3Dオブジェクト検出の課題を再考する。
より大規模なOmni3Dおよび既存のベンチマークにおいて、Cube R-CNNが以前の作業より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-21T17:56:22Z) - HM3D-ABO: A Photo-realistic Dataset for Object-centric Multi-view 3D
Reconstruction [37.29140654256627]
本稿では、フォトリアリスティックなオブジェクト中心データセットHM3D-ABOを提案する。
リアルな屋内シーンとリアルなオブジェクトを構成することで構築される。
このデータセットは、カメラポーズ推定やノベルビュー合成といったタスクにも有用である。
論文 参考訳(メタデータ) (2022-06-24T16:02:01Z) - Voxel-based 3D Detection and Reconstruction of Multiple Objects from a
Single Image [22.037472446683765]
入力画像から3次元特徴持ち上げ演算子を用いて3次元シーン空間に整合した3次元ボクセル特徴の正規格子を学習する。
この3Dボクセルの特徴に基づき,新しいCenterNet-3D検出ヘッドは3D空間におけるキーポイント検出として3D検出を定式化する。
我々は、粗度ボキセル化や、新しい局所PCA-SDF形状表現を含む、効率的な粗度から細度の再構成モジュールを考案する。
論文 参考訳(メタデータ) (2021-11-04T18:30:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。