論文の概要: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from
RGB-D Videos
- arxiv url: http://arxiv.org/abs/2401.12592v2
- Date: Wed, 24 Jan 2024 02:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 11:37:39.971429
- Title: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from
RGB-D Videos
- Title(参考訳): 野生のRGBDオブジェクト:RGB-Dビデオによる実世界の3Dオブジェクト学習のスケーリング
- Authors: Hongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang
- Abstract要約: 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。
既存のオブジェクト中心のデータセットにはRGBしか含まれていないが、ディープチャネルを直接キャプチャすることで、より優れた3Dアノテーションとより広範な下流アプリケーションが可能になる。
- 参考スコア(独自算出の注目度): 28.712893167096468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new RGB-D object dataset captured in the wild called
WildRGB-D. Unlike most existing real-world object-centric datasets which only
come with RGB capturing, the direct capture of the depth channel allows better
3D annotations and broader downstream applications. WildRGB-D comprises
large-scale category-level RGB-D object videos, which are taken using an iPhone
to go around the objects in 360 degrees. It contains around 8500 recorded
objects and nearly 20000 RGB-D videos across 46 common object categories. These
videos are taken with diverse cluttered backgrounds with three setups to cover
as many real-world scenarios as possible: (i) a single object in one video;
(ii) multiple objects in one video; and (iii) an object with a static hand in
one video. The dataset is annotated with object masks, real-world scale camera
poses, and reconstructed aggregated point clouds from RGBD videos. We benchmark
four tasks with WildRGB-D including novel view synthesis, camera pose
estimation, object 6d pose estimation, and object surface reconstruction. Our
experiments show that the large-scale capture of RGB-D objects provides a large
potential to advance 3D object learning. Our project page is
https://wildrgbd.github.io/.
- Abstract(参考訳): 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。
rgbキャプチャのみの既存の現実世界のオブジェクト中心データセットとは異なり、深度チャネルを直接キャプチャすることで、3dアノテーションとより広範な下流アプリケーションが可能になる。
WildRGB-Dは、大規模なカテゴリレベルのRGB-Dオブジェクトビデオで構成されており、iPhoneを使って360度回転させる。
約8500の録音オブジェクトと、46の共通オブジェクトカテゴリにわたる20000 RGB-Dビデオが含まれている。
これらのビデオは、さまざまな背景が散らばっていて、3つの設定でできるだけ多くの現実のシナリオをカバーしています。
(i) 1つのビデオ中の1つのオブジェクト
(ii)1つのビデオ中の複数のオブジェクト
(iii)一本のビデオに静的な手が入った物。
データセットには、オブジェクトマスク、現実世界のカメラポーズ、RGBDビデオから集約されたポイントクラウドがアノテートされている。
wildrgb-dでは,新しいビュー合成,カメラポーズ推定,オブジェクト6dポーズ推定,オブジェクト表面再構成の4つのタスクをベンチマークした。
実験の結果,RGB-D物体の大規模捕獲は,3次元物体の学習を促進する大きな可能性を秘めていることがわかった。
プロジェクトページはhttps://wildrgbd.github.io/です。
関連論文リスト
- ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。
1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。
次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文 参考訳(メタデータ) (2024-04-09T17:55:41Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - ARKitTrack: A New Diverse Dataset for Tracking Using Mobile RGB-D Data [75.73063721067608]
我々は,AppleのiPhoneおよびiPadに搭載されたコンシューマグレードのLiDARスキャナーによってキャプチャされた静的および動的シーンの両方を対象とした新しいRGB-D追跡データセットを提案する。
ARKitTrackには300のRGB-Dシーケンス、455のターゲット、229.7Kのビデオフレームが含まれている。
詳細な実験分析により,ARKitTrackデータセットがRGB-D追跡を著しく促進し,提案手法が芸術的状況と良好に比較できることが確認された。
論文 参考訳(メタデータ) (2023-03-24T09:51:13Z) - Grasping the Inconspicuous [15.274311118568715]
本研究では,RGB画像からの深層学習による6次元ポーズ推定について検討した。
透明物体を把握するためのRGB画像空間の有効性を実験により実証した。
論文 参考訳(メタデータ) (2022-11-15T14:45:50Z) - Articulated 3D Human-Object Interactions from RGB Videos: An Empirical
Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。
このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。
実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2022-09-12T21:03:25Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z) - MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from
Monocular RGB Videos [30.541606989348377]
MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。
rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。
屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
論文 参考訳(メタデータ) (2020-12-09T23:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。