論文の概要: Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2110.11680v1
- Date: Fri, 22 Oct 2021 10:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-25 13:54:06.939736
- Title: Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation
- Title(参考訳): 深部2ストリーム映像による人体ポーズ推定と形状推定
- Authors: Ziwen Li, Bo Xu, Han Huang, Cheng Lu and Yandong Guo
- Abstract要約: RGBビデオから3次元のポーズとメッシュを生成する新しいフレームワークを提案する。
SMPLパラメータを予測するために,トランスフォーマーに基づく2ストリーム時間ネットワークを訓練する。
提案アルゴリズムは,Human3.6と3DPWのデータセットで広く評価されている。
- 参考スコア(独自算出の注目度): 18.14237514372724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several video-based 3D pose and shape estimation algorithms have been
proposed to resolve the temporal inconsistency of single-image-based methods.
However it still remains challenging to have stable and accurate
reconstruction. In this paper, we propose a new framework Deep Two-Stream Video
Inference for Human Body Pose and Shape Estimation (DTS-VIBE), to generate 3D
human pose and mesh from RGB videos. We reformulate the task as a
multi-modality problem that fuses RGB and optical flow for more reliable
estimation. In order to fully utilize both sensory modalities (RGB or optical
flow), we train a two-stream temporal network based on transformer to predict
SMPL parameters. The supplementary modality, optical flow, helps to maintain
temporal consistency by leveraging motion knowledge between two consecutive
frames. The proposed algorithm is extensively evaluated on the Human3.6 and
3DPW datasets. The experimental results show that it outperforms other
state-of-the-art methods by a significant margin.
- Abstract(参考訳): 単一画像に基づく手法の時間的矛盾を解決するために,ビデオベースの3次元ポーズと形状推定アルゴリズムが提案されている。
しかし、安定的かつ正確な再建はいまだに困難である。
本稿では,RGBビデオから3次元のポーズとメッシュを生成するために,人体姿勢と形状推定のためのDeep Two-Stream Video Inference(DTS-VIBE)を提案する。
我々は,rgbとオプティカルフローを融合したマルチモダリティ問題としてタスクを再構成し,より信頼性の高い推定を行う。
感覚モーダル性(RGBまたは光流)の両面をフル活用するために,変換器に基づく2ストリーム時間ネットワークを訓練し,SMPLパラメータを予測する。
補足的モダリティ、光学的フローは、2つの連続するフレーム間の運動知識を活用することで時間的一貫性を維持するのに役立つ。
提案アルゴリズムはhuman3.6および3dpwデータセット上で広く評価されている。
実験の結果,他の最先端手法よりも有意差が認められた。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - Unfolding Framework with Prior of Convolution-Transformer Mixture and
Uncertainty Estimation for Video Snapshot Compressive Imaging [7.601695814245209]
本稿では, 連続する高速フレームを異なるマスクで変調し, 単一の計測でキャプチャする, ビデオスナップショット圧縮画像(SCI)の問題点について考察する。
最適化アルゴリズムとニューラルネットワークを組み合わせることで、ディープ・アンフォールディング・ネットワーク(DUN)は、逆問題の解決において大きな成果を上げた。
論文 参考訳(メタデータ) (2023-06-20T06:25:48Z) - TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation [7.22614468437919]
既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
本稿では,RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定手法を提案する。
TAPEは標準ベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-29T06:08:43Z) - Shakes on a Plane: Unsupervised Depth Estimation from Unstabilized
Photography [54.36608424943729]
2秒で取得した12メガピクセルのRAWフレームの「長バースト」では,自然手震動のみからの視差情報で高品質のシーン深度を回復できることが示されている。
我々は、長時間バーストデータにニューラルRGB-D表現を適合させるテスト時間最適化手法を考案し、シーン深度とカメラモーションを同時に推定する。
論文 参考訳(メタデータ) (2022-12-22T18:54:34Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Multi-view Depth Estimation using Epipolar Spatio-Temporal Networks [87.50632573601283]
一つのビデオから多視点深度を推定する新しい手法を提案する。
提案手法は,新しいEpipolar Spatio-Temporal Transformer(EST)を用いて時間的コヒーレントな深度推定を行う。
最近のMixture-of-Expertsモデルにインスパイアされた計算コストを削減するため、我々はコンパクトなハイブリッドネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-26T04:04:21Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。