論文の概要: Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild
with Pose Annotations
- arxiv url: http://arxiv.org/abs/2012.09988v1
- Date: Fri, 18 Dec 2020 00:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-02 05:18:51.159655
- Title: Objectron: A Large Scale Dataset of Object-Centric Videos in the Wild
with Pose Annotations
- Title(参考訳): objectron: ポーズアノテーション付きオブジェクト中心のビデオの大規模データセット
- Authors: Adel Ahmadyan, Liangkai Zhang, Jianing Wei, Artsiom Ablavatski,
Matthias Grundmann
- Abstract要約: 3Dオブジェクト検出の最先端を前進させるために、Objectronデータセットを紹介します。
データセットには、9つのカテゴリのポーズアノテーションを備えたオブジェクト中心の短いビデオが含まれ、14,819の注釈付きビデオに400万の注釈付き画像が含まれています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D object detection has recently become popular due to many applications in
robotics, augmented reality, autonomy, and image retrieval. We introduce the
Objectron dataset to advance the state of the art in 3D object detection and
foster new research and applications, such as 3D object tracking, view
synthesis, and improved 3D shape representation. The dataset contains
object-centric short videos with pose annotations for nine categories and
includes 4 million annotated images in 14,819 annotated videos. We also propose
a new evaluation metric, 3D Intersection over Union, for 3D object detection.
We demonstrate the usefulness of our dataset in 3D object detection tasks by
providing baseline models trained on this dataset. Our dataset and evaluation
source code are available online at http://www.objectron.dev
- Abstract(参考訳): ロボット工学、拡張現実、自律性、画像検索など多くの応用により、近年3Dオブジェクト検出が普及している。
本研究では,3次元物体検出における最先端技術であるobjectronデータセットを導入し,3次元物体追跡,ビュー合成,改良された3次元形状表現など,新たな研究と応用を展開する。
データセットには9つのカテゴリの注記付きオブジェクト中心のショートビデオが含まれており、14,819の注釈付きビデオに400万の注釈付き画像が含まれている。
また, 3次元物体検出のための新しい評価指標である3次元交叉法を提案する。
このデータセットでトレーニングされたベースラインモデルを提供することで、3次元オブジェクト検出タスクにおけるデータセットの有用性を示す。
私たちのデータセットと評価ソースコードはhttp://www.objectron.dev.comで公開されている。
関連論文リスト
- ImageNet3D: Towards General-Purpose Object-Level 3D Understanding [20.837297477080945]
汎用オブジェクトレベルの3D理解のための大規模データセットであるImageNet3Dを提案する。
ImageNet3Dは、ImageNetデータセットから2Dバウンディングボックス、3Dポーズ、3D位置アノテーション、3D情報でインターリーブされた画像キャプションを含む200のカテゴリを追加している。
我々は,標準分類とポーズ推定に加えて,オブジェクトレベルの3D認識とオープン語彙のポーズ推定という2つの新しいタスクを検討する。
論文 参考訳(メタデータ) (2024-06-13T22:44:26Z) - Object2Scene: Putting Objects in Context for Open-Vocabulary 3D
Detection [24.871590175483096]
ポイントクラウドベースのオープンボキャブラリ3Dオブジェクト検出は、トレーニングセットに地味なアノテーションを持たない3Dカテゴリを検出することを目的としている。
従来のアプローチでは、3Dとカテゴリのセマンティクスの橋渡しとして、大規模にリッチな注釈付き画像データセットを活用していた。
本研究では,大規模大語彙の3Dオブジェクトデータセットを活用する最初のアプローチであるObject2Sceneを提案し,オープンな3Dオブジェクト検出のために既存の3Dシーンデータセットを拡張する。
論文 参考訳(メタデータ) (2023-09-18T03:31:53Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - Tracking Objects with 3D Representation from Videos [57.641129788552675]
P3DTrackと呼ばれる新しい2次元多目的追跡パラダイムを提案する。
モノクロビデオにおける擬似3Dオブジェクトラベルからの3次元オブジェクト表現学習により,P3DTrackと呼ばれる新しい2次元MOTパラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:58:45Z) - OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic
Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。
190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。
それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文 参考訳(メタデータ) (2023-01-18T18:14:18Z) - Common Objects in 3D: Large-Scale Learning and Evaluation of Real-life
3D Category Reconstruction [7.013794773659423]
3Dの共通オブジェクト(Common Objects in 3D)は、カメラのポーズと地上の真実の3Dポイントクラウドで注釈付けされたオブジェクトカテゴリの実際のマルチビューイメージを備えた大規模なデータセットである。
データセットには、50のMS-COCOカテゴリからオブジェクトをキャプチャする19,000近いビデオから、合計150万フレームが含まれている。
我々は、この新たなデータセットを利用して、いくつかの新しいビュー合成法とカテゴリ中心の3D再構成法に関する、最初の大規模"in-the-wild"評価を行う。
論文 参考訳(メタデータ) (2021-09-01T17:59:05Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and
3D Mesh Reconstruction from Video Data [124.2624568006391]
sail-vos 3d: フレーム毎のメッシュアノテーションを備えた合成ビデオデータセット。
また,時間モデルによる映像データから3次元メッシュを再構成するための最初のベースラインを開発した。
論文 参考訳(メタデータ) (2021-05-18T15:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。