論文の概要: Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life
3D Category Reconstruction
- arxiv url: http://arxiv.org/abs/2109.00512v1
- Date: Wed, 1 Sep 2021 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 14:17:30.423988
- Title: Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life
3D Category Reconstruction
- Title(参考訳): 3次元の共通対象:大規模学習と実生3次元カテゴリー再構成の評価
- Authors: Jeremy Reizenstein, Roman Shapovalov, Philipp Henzler, Luca Sbordone,
Patrick Labatut, David Novotny
- Abstract要約: 3Dの共通オブジェクト(Common Objects in 3D)は、カメラのポーズと地上の真実の3Dポイントクラウドで注釈付けされたオブジェクトカテゴリの実際のマルチビューイメージを備えた大規模なデータセットである。
データセットには、50のMS-COCOカテゴリからオブジェクトをキャプチャする19,000近いビデオから、合計150万フレームが含まれている。
我々は、この新たなデータセットを利用して、いくつかの新しいビュー合成法とカテゴリ中心の3D再構成法に関する、最初の大規模"in-the-wild"評価を行う。
- 参考スコア(独自算出の注目度): 7.013794773659423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional approaches for learning 3D object categories have been
predominantly trained and evaluated on synthetic datasets due to the
unavailability of real 3D-annotated category-centric data. Our main goal is to
facilitate advances in this field by collecting real-world data in a magnitude
similar to the existing synthetic counterparts. The principal contribution of
this work is thus a large-scale dataset, called Common Objects in 3D, with real
multi-view images of object categories annotated with camera poses and ground
truth 3D point clouds. The dataset contains a total of 1.5 million frames from
nearly 19,000 videos capturing objects from 50 MS-COCO categories and, as such,
it is significantly larger than alternatives both in terms of the number of
categories and objects. We exploit this new dataset to conduct one of the first
large-scale "in-the-wild" evaluations of several new-view-synthesis and
category-centric 3D reconstruction methods. Finally, we contribute NerFormer -
a novel neural rendering method that leverages the powerful Transformer to
reconstruct an object given a small number of its views. The CO3D dataset is
available at https://github.com/facebookresearch/co3d .
- Abstract(参考訳): 3Dオブジェクトカテゴリを学習するための従来のアプローチは、実際の3Dアノテートされたカテゴリ中心のデータが利用できないため、合成データセットに基づいて主に訓練され、評価されてきた。
私たちの主な目標は、既存の合成データと同様の大きさで現実世界のデータを集めることで、この分野の進歩を促進することです。
この研究の主な貢献はCommon Objects in 3Dと呼ばれる大規模なデータセットであり、カメラのポーズと地上の真実の3Dポイントの雲でアノテートされたオブジェクトカテゴリの実際のマルチビューイメージである。
データセットには、50のMS-COCOカテゴリからオブジェクトをキャプチャする19,000近いビデオから150万フレームが含まれており、カテゴリ数とオブジェクト数の両方において、選択肢よりもはるかに大きい。
この新しいデータセットを利用して,いくつかの新しい視点合成法とカテゴリ中心の3次元再構成法について,最初の大規模"イン・ザ・ワイルド"評価を行う。
最後に,NerFormeraの強力なトランスフォーマーを利用したニューラルレンダリング手法を提案し,少数のビューが与えられたオブジェクトを再構成する。
CO3Dデータセットはhttps://github.com/facebookresearch/co3dで公開されている。
関連論文リスト
- OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Objaverse: A Universe of Annotated 3D Objects [53.2537614157313]
800K以上の(そして成長する)3Dモデルと記述タグ,キャプション,アニメーションを備えたオブジェクトの大規模なデータセットであるAverse 1.0を提示する。
多様な3Dモデルのトレーニング、LVISベンチマークでのテールカテゴリセグメンテーションの改善、エンボディードビジョンモデルのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、そしてビジョンモデルのロバストネス分析のための新しいベンチマークを作成する。
論文 参考訳(メタデータ) (2022-12-15T18:56:53Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - ABO: Dataset and Benchmarks for Real-World 3D Object Understanding [43.42504014918771]
Amazon-Berkeley Objects (ABO)は、製品イメージと実際の家庭用オブジェクトに対応する3Dモデルの大規模なデータセットである。
合成オブジェクトをトレーニングした単一ビュー3D再構成ネットワークにおいて,ABOを用いてドメインギャップを測定する。
また、ABOのマルチビュー画像を用いて、異なるカメラ視点に対する最先端のメトリック学習アプローチの堅牢性を測定する。
論文 参考訳(メタデータ) (2021-10-12T17:52:42Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z) - Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild
with Pose Annotations [0.0]
3Dオブジェクト検出の最先端を前進させるために、Objectronデータセットを紹介します。
データセットには、9つのカテゴリのポーズアノテーションを備えたオブジェクト中心の短いビデオが含まれ、14,819の注釈付きビデオに400万の注釈付き画像が含まれています。
論文 参考訳(メタデータ) (2020-12-18T00:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。