論文の概要: InterTrack: Tracking Human Object Interaction without Object Templates
- arxiv url: http://arxiv.org/abs/2408.13953v1
- Date: Sun, 25 Aug 2024 22:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:22:15.498922
- Title: InterTrack: Tracking Human Object Interaction without Object Templates
- Title(参考訳): InterTrack: オブジェクトテンプレートなしでのヒューマンオブジェクトのインタラクションを追跡する
- Authors: Xianghui Xie, Jan Eric Lenssen, Gerard Pons-Moll,
- Abstract要約: 本研究では,物体形状のテンプレートを使わずに,人間の物体の相互作用を追跡する手法を提案する。
4次元トラッキング問題をフレーム単位のポーズトラッキングと標準形状最適化に分解する。
提案手法は,従来のテンプレートベースビデオトラッキングや単一フレーム再構成よりも優れていた。
- 参考スコア(独自算出の注目度): 34.31283776812698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tracking human object interaction from videos is important to understand human behavior from the rapidly growing stream of video data. Previous video-based methods require predefined object templates while single-image-based methods are template-free but lack temporal consistency. In this paper, we present a method to track human object interaction without any object shape templates. We decompose the 4D tracking problem into per-frame pose tracking and canonical shape optimization. We first apply a single-view reconstruction method to obtain temporally-inconsistent per-frame interaction reconstructions. Then, for the human, we propose an efficient autoencoder to predict SMPL vertices directly from the per-frame reconstructions, introducing temporally consistent correspondence. For the object, we introduce a pose estimator that leverages temporal information to predict smooth object rotations under occlusions. To train our model, we propose a method to generate synthetic interaction videos and synthesize in total 10 hour videos of 8.5k sequences with full 3D ground truth. Experiments on BEHAVE and InterCap show that our method significantly outperforms previous template-based video tracking and single-frame reconstruction methods. Our proposed synthetic video dataset also allows training video-based methods that generalize to real-world videos. Our code and dataset will be publicly released.
- Abstract(参考訳): ビデオから人間のオブジェクトのインタラクションを追跡することは、急速に成長するビデオデータの流れから人間の振る舞いを理解するために重要である。
以前のビデオベースのメソッドでは事前に定義されたオブジェクトテンプレートが必要であったが、単一イメージベースのメソッドはテンプレートなしだが時間的一貫性がない。
本稿では,物体形状のテンプレートを使わずに,人間の物体の相互作用を追跡する手法を提案する。
4次元トラッキング問題をフレーム単位のポーズトラッキングと標準形状最適化に分解する。
まず,時間的に一貫性のないフレーム単位のインタラクション再構築を実現するために,一視点再構成手法を適用した。
そして,人間に対しては,フレーム単位の再構成から直接SMPL頂点を予測し,時間的に一貫した対応を導入するための効率的なオートエンコーダを提案する。
対象物に対しては,時間情報を利用したポーズ推定器を導入し,閉塞下での滑らかな物体回転を予測する。
そこで,本研究では,合成対話ビデオを生成し,8.5kシーケンスの合計10時間ビデオをフル3Dで合成する手法を提案する。
BEHAVE と InterCap を用いた実験により,従来のテンプレートベースビデオ追跡法と単一フレーム再構成法よりも優れた性能を示した。
提案する合成ビデオデータセットでは,実世界のビデオに一般化するビデオベース手法の訓練も可能である。
コードとデータセットは公開されます。
関連論文リスト
- DressRecon: Freeform 4D Human Reconstruction from Monocular Video [64.61230035671885]
本稿では,モノクラービデオから時間一貫性のある人体モデルを再構築する手法を提案する。
非常にゆるい衣服やハンドヘルドオブジェクトのインタラクションに重点を置いています。
DressReconは、先行技術よりも忠実度の高い3D再構築を実現している。
論文 参考訳(メタデータ) (2024-09-30T17:59:15Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - Visibility Aware Human-Object Interaction Tracking from Single RGB
Camera [40.817960406002506]
本稿では,1台のRGBカメラからフレーム間の3次元人・物・接触・相対変換を追跡する新しい手法を提案する。
我々は、SMPLをビデオシーケンスに予め適合させて得られたフレームごとのSMPLモデル推定に基づいて、人間と物体の脳野再構成を行う。
可視フレームからの人間と物体の動きは、隠蔽された物体を推測するための貴重な情報を提供する。
論文 参考訳(メタデータ) (2023-03-29T06:23:44Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - Estimating 3D Motion and Forces of Human-Object Interactions from
Internet Videos [49.52070710518688]
一つのRGBビデオからオブジェクトと対話する人の3D動作を再構築する手法を提案する。
本手法では,被験者の3次元ポーズを物体のポーズ,接触位置,人体の接触力とともに推定する。
論文 参考訳(メタデータ) (2021-11-02T13:40:18Z) - LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。
本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文 参考訳(メタデータ) (2021-05-06T21:41:11Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。