Fugu-MT 論文翻訳(概要): RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

論文の概要: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos

arxiv url: http://arxiv.org/abs/2401.12592v1
Date: Tue, 23 Jan 2024 09:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 16:18:47.874741
Title: RGBD Objects in the Wild: Scaling Real-World 3D Object Learning from RGB-D Videos
Title（参考訳）: 野生のRGBDオブジェクト:RGB-Dビデオによる実世界の3Dオブジェクト学習のスケーリング
Authors: Hongchi Xia, Yang Fu, Sifei Liu, Xiaolong Wang
Abstract要約: 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。既存のオブジェクト中心のデータセットにはRGBしか含まれていないが、ディープチャネルを直接キャプチャすることで、より優れた3Dアノテーションとより広範な下流アプリケーションが可能になる。
参考スコア（独自算出の注目度）: 28.712893167096468
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new RGB-D object dataset captured in the wild called WildRGB-D. Unlike most existing real-world object-centric datasets which only come with RGB capturing, the direct capture of the depth channel allows better 3D annotations and broader downstream applications. WildRGB-D comprises large-scale category-level RGB-D object videos, which are taken using an iPhone to go around the objects in 360 degrees. It contains around 8500 recorded objects and nearly 20000 RGB-D videos across 46 common object categories. These videos are taken with diverse cluttered backgrounds with three setups to cover as many real-world scenarios as possible: (i) a single object in one video; (ii) multiple objects in one video; and (iii) an object with a static hand in one video. The dataset is annotated with object masks, real-world scale camera poses, and reconstructed aggregated point clouds from RGBD videos. We benchmark four tasks with WildRGB-D including novel view synthesis, camera pose estimation, object 6d pose estimation, and object surface reconstruction. Our experiments show that the large-scale capture of RGB-D objects provides a large potential to advance 3D object learning. Our project page is https://wildrgbd.github.io/.
Abstract（参考訳）: 野生ではWildRGB-Dと呼ばれる新しいRGB-Dオブジェクトデータセットを導入する。 rgbキャプチャのみの既存の現実世界のオブジェクト中心データセットとは異なり、深度チャネルを直接キャプチャすることで、3dアノテーションとより広範な下流アプリケーションが可能になる。 WildRGB-Dは、大規模なカテゴリレベルのRGB-Dオブジェクトビデオで構成されており、iPhoneを使って360度回転させる。約8500の録音オブジェクトと、46の共通オブジェクトカテゴリにわたる20000 RGB-Dビデオが含まれている。これらのビデオは、さまざまな背景が散らばっていて、3つの設定でできるだけ多くの現実のシナリオをカバーしています。 (i) 1つのビデオ中の1つのオブジェクト (ii)1つのビデオ中の複数のオブジェクト (iii)一本のビデオに静的な手が入った物。データセットには、オブジェクトマスク、現実世界のカメラポーズ、RGBDビデオから集約されたポイントクラウドがアノテートされている。 wildrgb-dでは,新しいビュー合成,カメラポーズ推定,オブジェクト6dポーズ推定,オブジェクト表面再構成の4つのタスクをベンチマークした。実験の結果,RGB-D物体の大規模捕獲は,3次元物体の学習を促進する大きな可能性を秘めていることがわかった。プロジェクトページはhttps://wildrgbd.github.io/です。

関連論文リスト

Generalizable Articulated Object Reconstruction from Casually Captured RGBD Videos [53.47352228180637]
我々は,手持ちカメラで撮影したカジュアルなRGBD映像から,明瞭な物体を復元することに焦点を当てた。スマートフォンを使って、手動で物体と対話するカジュアルな映像を簡単に取得できる。動的RGBDビデオからオブジェクトの関節パラメータとセグメントを推定する粗大なフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-10T01:41:46Z)
ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文参考訳（メタデータ） (2024-06-18T12:09:43Z)
Reconstructing Hand-Held Objects in 3D from Images and Videos [53.277402172488735]
モノクローナルなRGB映像が与えられると、時間とともに手持ちの物体の幾何学を3Dで再構築することを目指している。 1枚のRGB画像から手と物体の形状を共同で再構成するMCC-Hand-Object(MCC-HO)を提案する。次に、GPT-4(V)を用いてテキストから3D生成モデルを作成し、画像中のオブジェクトにマッチする3Dオブジェクトモデルを検索する。
論文参考訳（メタデータ） (2024-04-09T17:55:41Z)
HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文参考訳（メタデータ） (2023-11-30T10:50:35Z)
Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文参考訳（メタデータ） (2023-04-19T16:39:51Z)
ARKitTrack: A New Diverse Dataset for Tracking Using Mobile RGB-D Data [75.73063721067608]
我々は,AppleのiPhoneおよびiPadに搭載されたコンシューマグレードのLiDARスキャナーによってキャプチャされた静的および動的シーンの両方を対象とした新しいRGB-D追跡データセットを提案する。 ARKitTrackには300のRGB-Dシーケンス、455のターゲット、229.7Kのビデオフレームが含まれている。詳細な実験分析により,ARKitTrackデータセットがRGB-D追跡を著しく促進し,提案手法が芸術的状況と良好に比較できることが確認された。
論文参考訳（メタデータ） (2023-03-24T09:51:13Z)
Grasping the Inconspicuous [15.274311118568715]
本研究では,RGB画像からの深層学習による6次元ポーズ推定について検討した。透明物体を把握するためのRGB画像空間の有効性を実験により実証した。
論文参考訳（メタデータ） (2022-11-15T14:45:50Z)
Articulated 3D Human-Object Interactions from RGB Videos: An Empirical Analysis of Approaches and Challenges [19.21834600205309]
RGBビデオからの3次元人-物体インタラクション再構築のタスクを標準化する。このタスクには,3次元平面推定,3次元立方体推定,CADモデル適合,暗黙のフィールド適合,自由形メッシュ適合という5種類の手法を用いる。実験の結果,全ての手法が真理情報を提供しても精度の高い結果を得るのに苦慮していることがわかった。
論文参考訳（メタデータ） (2022-09-12T21:03:25Z)
D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文参考訳（メタデータ） (2021-08-19T00:49:01Z)
MOLTR: Multiple Object Localisation, Tracking, and Reconstruction from Monocular RGB Videos [30.541606989348377]
MOLTRはモノクロ画像シーケンスとカメラポーズのみを用いたオブジェクト中心マッピングのソリューションである。 rgbカメラが周囲のビデオをキャプチャすると、複数のオブジェクトをオンライン形式でローカライズし、追跡し、再構築することができる。屋内および屋外シーンのベンチマークデータセットのローカリゼーション、追跡、および再構築を評価します。
論文参考訳（メタデータ） (2020-12-09T23:15:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。