論文の概要: A New People-Object Interaction Dataset and NVS Benchmarks
- arxiv url: http://arxiv.org/abs/2409.12980v1
- Date: Tue, 3 Sep 2024 08:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 12:25:44.184155
- Title: A New People-Object Interaction Dataset and NVS Benchmarks
- Title(参考訳): 新しい人オブジェクトインタラクションデータセットとNVSベンチマーク
- Authors: Shuai Guo, Houqiang Zhong, Qiuwen Wang, Ziyu Chen, Yijie Gao, Jiajing Yuan, Chenyu Zhang, Rong Xie, Li Song,
- Abstract要約: そこで本研究では,30-viewのマルチパーソンまたは1対1のRGB-Dビデオシーケンスからなる新たな人物オブジェクトインタラクションデータセットを提案する。
ビデオシーケンスは30のKinect Azureによってキャプチャされ、シーンを均一に囲み、それぞれ4K解像度25 FPSで、1$sim$19秒続く。
- 参考スコア(独自算出の注目度): 16.909004722367644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, NVS in human-object interaction scenes has received increasing attention. Existing human-object interaction datasets mainly consist of static data with limited views, offering only RGB images or videos, mostly containing interactions between a single person and objects. Moreover, these datasets exhibit complexities in lighting environments, poor synchronization, and low resolution, hindering high-quality human-object interaction studies. In this paper, we introduce a new people-object interaction dataset that comprises 38 series of 30-view multi-person or single-person RGB-D video sequences, accompanied by camera parameters, foreground masks, SMPL models, some point clouds, and mesh files. Video sequences are captured by 30 Kinect Azures, uniformly surrounding the scene, each in 4K resolution 25 FPS, and lasting for 1$\sim$19 seconds. Meanwhile, we evaluate some SOTA NVS models on our dataset to establish the NVS benchmarks. We hope our work can inspire further research in humanobject interaction.
- Abstract(参考訳): 近年,人間と物体の相互作用シーンにおけるNVSへの注目が高まっている。
既存の人間とオブジェクトのインタラクションデータセットは主に、限られたビューを持つ静的データで構成されており、RGBの画像やビデオのみを提供し、主に1人とオブジェクト間のインタラクションを含んでいる。
さらに、これらのデータセットは、照明環境、同期性の悪い、解像度の低い複雑さを示し、高品質な人間と物体の相互作用研究を妨げる。
本稿では,カメラパラメータ,フォアグラウンドマスク,SMPLモデル,ポイントクラウド,メッシュファイルなどを伴う,30-viewの複数対1のRGB-Dビデオシーケンスを38シリーズにまとめた新たな人対物インタラクションデータセットを提案する。
ビデオシーケンスは30のKinect Azureによってキャプチャされ、シーンを均一に囲み、それぞれ4K解像度25 FPSで、1$\sim$19秒続く。
一方、データセット上でいくつかのSOTA NVSモデルを評価し、NVSベンチマークを確立する。
私たちの研究が、人間とオブジェクトの相互作用に関するさらなる研究を刺激してくれることを願っています。
関連論文リスト
- CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - HOI-M3:Capture Multiple Humans and Objects Interaction within Contextual Environment [43.6454394625555]
HOI-M3は、複数のhumanと複数のオブジェクトの相互作用をモデル化するための、新しい大規模データセットである。
密集したRGBとオブジェクト搭載IMU入力から、人間と物体の両方の正確な3Dトラッキングを提供する。
論文 参考訳(メタデータ) (2024-03-30T09:24:25Z) - InterCap: Joint Markerless 3D Tracking of Humans and Objects in
Interaction [0.0]
InterCapは、多視点RGB-Dデータからボディ全体とオブジェクトを再構築する。
Azure Kinectセンサーを使えば、シンプルなマルチビューのRGB-Dキャプチャシステムをセットアップできます。
InterCapには223のRGB-Dビデオがあり、6つのRGB-D画像を含む67,357のマルチビューフレームがある。
論文 参考訳(メタデータ) (2022-09-26T00:46:49Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - BEHAVE: Dataset and Method for Tracking Human Object Interactions [105.77368488612704]
マルチビューのRGBDフレームとそれに対応する3D SMPLとオブジェクトをアノテートしたアノテートコンタクトに適合させる。
このデータを用いて、自然環境における人間と物体を、容易に使用可能なマルチカメラで共同で追跡できるモデルを学ぶ。
論文 参考訳(メタデータ) (2022-04-14T13:21:19Z) - EgoBody: Human Body Shape, Motion and Social Interactions from
Head-Mounted Devices [76.50816193153098]
EgoBodyは複雑な3Dシーンにおけるソーシャルインタラクションのための新しい大規模データセットである。
私たちはMicrosoft HoloLens2ヘッドセットを使って、RGB、奥行き、視線、頭と手のトラッキングなど、リッチなエゴセントリックなデータストリームを記録しています。
正確な3Dグラウンドトルースを得るため、マルチKinectリグでヘッドセットを校正し、多視点RGB-Dフレームに表現力のあるSMPL-Xボディーメッシュを適合させる。
論文 参考訳(メタデータ) (2021-12-14T18:41:28Z) - Spatio-Temporal Interaction Graph Parsing Networks for Human-Object
Interaction Recognition [55.7731053128204]
ビデオに基づくヒューマンオブジェクトインタラクションシーンでは、人間とオブジェクトの時間的関係をモデル化することが、ビデオに提示されるコンテキスト情報を理解するための重要な手がかりである。
実効時間関係モデリングでは、各フレームの文脈情報を明らかにするだけでなく、時間間の依存関係を直接キャプチャすることもできる。
外観特徴、空間的位置、意味情報のフル活用は、ビデオベースのヒューマンオブジェクトインタラクション認識性能を改善する鍵でもある。
論文 参考訳(メタデータ) (2021-08-19T11:57:27Z) - D3D-HOI: Dynamic 3D Human-Object Interactions from Videos [49.38319295373466]
本稿では,D3D-HOIについて紹介する。D3D-HOIは3次元オブジェクトのポーズ,形状,動きを,人間と物体の相互作用の時,地上の真理アノテーションを付加したモノクロビデオのデータセットである。
我々のデータセットは、様々な現実世界のシーンとカメラの視点から捉えた、いくつかの共通したオブジェクトで構成されている。
我々は、推定された3次元人間のポーズを利用して、物体の空間的レイアウトとダイナミクスをより正確に推定する。
論文 参考訳(メタデータ) (2021-08-19T00:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。