論文の概要: SIDOD: A Synthetic Image Dataset for 3D Object Pose Recognition with
Distractors
- arxiv url: http://arxiv.org/abs/2008.05955v1
- Date: Wed, 12 Aug 2020 00:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 05:11:38.997500
- Title: SIDOD: A Synthetic Image Dataset for 3D Object Pose Recognition with
Distractors
- Title(参考訳): sidod: 3次元物体ポーズ認識のための合成画像データセット
- Authors: Mona Jalal, Josef Spjut, Ben Boudaoud, Margrit Betke
- Abstract要約: このデータセットには144kのステレオ画像ペアが含まれており、最大10個のオブジェクトと3つのフォトリアリスティック仮想環境の18のカメラ視点を合成的に組み合わせている。
ドメインのランダム化に対する我々のアプローチを説明し、データセットを作成した決定について考察する。
- 参考スコア(独自算出の注目度): 10.546457120988494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a new, publicly-available image dataset generated by the NVIDIA
Deep Learning Data Synthesizer intended for use in object detection, pose
estimation, and tracking applications. This dataset contains 144k stereo image
pairs that synthetically combine 18 camera viewpoints of three photorealistic
virtual environments with up to 10 objects (chosen randomly from the 21 object
models of the YCB dataset [1]) and flying distractors. Object and camera pose,
scene lighting, and quantity of objects and distractors were randomized. Each
provided view includes RGB, depth, segmentation, and surface normal images, all
pixel level. We describe our approach for domain randomization and provide
insight into the decisions that produced the dataset.
- Abstract(参考訳): 本稿では,NVIDIA Deep Learning Data Synthesizerによって生成され,オブジェクト検出,ポーズ推定,トラッキングアプリケーションに使用される新しい,公開可能な画像データセットを提案する。
このデータセットは、114kのステレオ画像ペアを含み、最大10のオブジェクト(ycbデータセットの21のオブジェクトモデルからランダムに選択される)と空飛ぶ気晴らし器で、3つのフォトリアリスティックな仮想環境の18のカメラ視点を合成する。
オブジェクトとカメラのポーズ、シーンの照明、オブジェクトと気晴らしの量がランダム化された。
各ビューにはrgb、深度、セグメンテーション、表面正規画像が含まれ、すべてのピクセルレベルである。
ドメインのランダム化に対する我々のアプローチを説明し、データセットを作成した決定について考察する。
関連論文リスト
- 360 in the Wild: Dataset for Depth Prediction and View Synthesis [66.58513725342125]
大規模な360$circ$ビデオデータセットを野放しに導入する。
このデータセットはインターネットから慎重に取り除かれ、世界中で様々な場所から収集されている。
データセットを構成する25K画像のそれぞれに、それぞれのカメラのポーズと深さマップが提供される。
論文 参考訳(メタデータ) (2024-06-27T05:26:38Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - LaTeRF: Label and Text Driven Object Radiance Fields [8.191404990730236]
シーン全体と既知のカメラポーズの2次元画像から興味の対象を抽出するLaTeRFを提案する。
シーンからオブジェクトを忠実に抽出するために、LaTeRFはNeRFの定式化を3Dポイントごとに追加のオブジェクト性確率で拡張する。
合成データと実データの両方で高忠実度オブジェクト抽出を実証する。
論文 参考訳(メタデータ) (2022-07-04T17:07:57Z) - Neural Volumetric Object Selection [126.04480613166194]
マルチプレーン画像(MPI)やニューラルレイディアンスフィールド(NeRF)のような,神経体積の3次元表現における物体の選択手法を提案する。
提案手法では,前景と背景の2次元ユーザを1つの視点で記述し,対象物の3次元セグメンテーションを自動的に推定する。
論文 参考訳(メタデータ) (2022-05-30T08:55:20Z) - A Real World Dataset for Multi-view 3D Reconstruction [28.298548207213468]
日常のテーブルトップオブジェクトの371個の3Dモデルと,実世界のRGBと深度画像のデータセットを提示する。
私たちは主に、タスクに適切な実世界のベンチマークがないため、学習したマルチビューの3D再構成に注目し、データセットがそのギャップを埋めることを示す。
論文 参考訳(メタデータ) (2022-03-22T00:15:54Z) - Multi-sensor large-scale dataset for multi-view 3D reconstruction [63.59401680137808]
マルチビュー3次元表面再構成のための新しいマルチセンサデータセットを提案する。
スマートフォン、Intel RealSense、Microsoft Kinect、産業用カメラ、構造化光スキャナーなどだ。
14の照明条件下で100方向から取得した107の異なるシーンの約1.4万枚の画像を提供する。
論文 参考訳(メタデータ) (2022-03-11T17:32:27Z) - StereOBJ-1M: Large-scale Stereo Image Dataset for 6D Object Pose
Estimation [43.839322860501596]
本稿では,大規模なステレオRGB画像オブジェクトのポーズ推定データセットであるtextbfStereOBJ-1M$データセットを提案する。
このデータセットは、オブジェクトの透明性、透過性、スペキュラリフレクションといった困難なケースに対処するように設計されている。
複雑で柔軟な環境でデータをキャプチャできる多視点方式でポーズデータを効率的にアノテートする新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-21T11:56:38Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - Sparse Pose Trajectory Completion [87.31270669154452]
サンプルの少ないビューにのみオブジェクトが出現するデータセットを使用しても学習する方法を提案する。
これはクロスモーダルポーズ軌道伝達機構によって実現される。
この手法はPix3DおよびShapeNetデータセット上で評価される。
論文 参考訳(メタデータ) (2021-05-01T00:07:21Z) - Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning [4.297070083645049]
TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
論文 参考訳(メタデータ) (2020-11-11T11:46:33Z) - YCB-M: A Multi-Camera RGB-D Dataset for Object Recognition and 6DoF Pose
Estimation [2.9972063833424216]
7つの異なる3Dカメラで撮影され、合計49,294フレームで撮影された32のシーンのデータセットを提示する。
これにより、使用するカメラの仕様に対するポーズ推定アルゴリズムの感度を評価することができる。
論文 参考訳(メタデータ) (2020-04-24T11:14:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。