論文の概要: Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera
- arxiv url: http://arxiv.org/abs/2303.16479v2
- Date: Tue, 31 Oct 2023 16:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 03:30:55.375279
- Title: Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera
- Title(参考訳): シングルRGBカメラからの人間と物体のインタラクション追跡の可視性
- Authors: Xianghui Xie and Bharat Lal Bhatnagar and Gerard Pons-Moll
- Abstract要約: 本稿では,1台のRGBカメラからフレーム間の3次元人・物・接触・相対変換を追跡する新しい手法を提案する。
我々は、SMPLをビデオシーケンスに予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
可視フレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
- 参考スコア(独自算出の注目度): 40.817960406002506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing the interactions between humans and their environment in 3D is
important for many applications in robotics, graphics, and vision. Recent works
to reconstruct the 3D human and object from a single RGB image do not have
consistent relative translation across frames because they assume a fixed
depth. Moreover, their performance drops significantly when the object is
occluded. In this work, we propose a novel method to track the 3D human,
object, contacts between them, and their relative translation across frames
from a single RGB camera, while being robust to heavy occlusions. Our method is
built on two key insights. First, we condition our neural field reconstructions
for human and object on per-frame SMPL model estimates obtained by pre-fitting
SMPL to a video sequence. This improves neural reconstruction accuracy and
produces coherent relative translation across frames. Second, human and object
motion from visible frames provides valuable information to infer the occluded
object. We propose a novel transformer-based neural network that explicitly
uses object visibility and human motion to leverage neighbouring frames to make
predictions for the occluded frames. Building on these insights, our method is
able to track both human and object robustly even under occlusions. Experiments
on two datasets show that our method significantly improves over the
state-of-the-art methods. Our code and pretrained models are available at:
https://virtualhumans.mpi-inf.mpg.de/VisTracker
- Abstract(参考訳): 人間と環境の相互作用を3dで捉えることは、ロボット工学、グラフィックス、視覚学の多くの応用において重要である。
一つのRGB画像から3次元人間と物体を再構成する最近の研究は、固定深度を仮定するため、フレーム間の相対変換が一貫しない。
さらに、オブジェクトがオクルードされるとパフォーマンスが大幅に低下する。
本研究では,1台のrgbカメラから3次元人物,物体,物体との接触,フレーム間の相対的変換を追跡する新しい手法を提案する。
我々の手法は2つの重要な洞察に基づいている。
まず、ビデオシーケンスにSMPLを予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
これにより、神経再構成の精度が向上し、フレーム間のコヒーレントな相対変換が生成される。
第二に、目に見えるフレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
本研究では,物体の視認性と人間の動きを明示的に利用し,隣接フレームを用いてオクルードフレームの予測を行う,トランスフォーマーベースのニューラルネットを提案する。
これらの知見に基づいて,本手法は,隠蔽下であっても,人間と物体の両方を頑健に追跡することができる。
2つのデータセットの実験により,本手法は最先端の手法よりも大幅に改善されていることが示された。
私たちのコードと事前トレーニングされたモデルは、https://virtualhumans.mpi-inf.mpg.de/vistrackerで利用可能です。
関連論文リスト
- 3D Foundation Models Enable Simultaneous Geometry and Pose Estimation of Grasped Objects [13.58353565350936]
本研究では,ロボットが把握した物体の形状と姿勢を共同で推定する手法を提案する。
提案手法は,推定幾何をロボットの座標フレームに変換する。
我々は,実世界の多様な物体の集合を保持するロボットマニピュレータに対する我々のアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-07-14T21:02:55Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - PIZZA: A Powerful Image-only Zero-Shot Zero-CAD Approach to 6 DoF
Tracking [27.283648727847268]
トレーニング画像も3次元形状も利用できない場合,RGBビデオシーケンス中の物体の6次元動きを追跡する手法を提案する。
従来の研究とは対照的に,本手法はオープンワールドにおける未知の物体を瞬時に考慮することができる。
挑戦的なデータセットに関する私たちの結果は、もっと多くの情報を必要とする以前の作業と同等です。
論文 参考訳(メタデータ) (2022-09-15T19:55:13Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - CHORE: Contact, Human and Object REconstruction from a single RGB image [40.817960406002506]
CHOREは、1枚のRGB画像から人間と物体を共同で再構築する方法である。
2つの符号のない距離場で暗黙的に表現された人間と物体の神経再構成を計算する。
提案手法で得られた共同再建がSOTAを著しく上回ることを示す実験を行った。
論文 参考訳(メタデータ) (2022-04-05T18:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。