Fugu-MT 論文翻訳(概要): Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion Prior

論文の概要: Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion Prior

arxiv url: http://arxiv.org/abs/2207.05375v1
Date: Tue, 12 Jul 2022 08:15:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-13 14:36:18.982811
Title: Occluded Human Body Capture with Self-Supervised Spatial-Temporal Motion Prior
Title（参考訳）: 自己監督型時空間運動を先行した人体捕集
Authors: Buzhen Huang, Yuan Shu, Jingyi Ju, Yangang Wang
Abstract要約: 私たちは、トレーニングとテストの両方に使用できる最初の3Dクローズドモーションデータセット(OcMotion)を構築します。次に、空間時間層は、関節レベルの相関を学習するために設計される。実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることが示唆された。
参考スコア（独自算出の注目度）: 7.157324258813676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although significant progress has been achieved on monocular maker-less human motion capture in recent years, it is still hard for state-of-the-art methods to obtain satisfactory results in occlusion scenarios. There are two main reasons: the one is that the occluded motion capture is inherently ambiguous as various 3D poses can map to the same 2D observations, which always results in an unreliable estimation. The other is that no sufficient occluded human data can be used for training a robust model. To address the obstacles, our key-idea is to employ non-occluded human data to learn a joint-level spatial-temporal motion prior for occluded human with a self-supervised strategy. To further reduce the gap between synthetic and real occlusion data, we build the first 3D occluded motion dataset~(OcMotion), which can be used for both training and testing. We encode the motions in 2D maps and synthesize occlusions on non-occluded data for the self-supervised training. A spatial-temporal layer is then designed to learn joint-level correlations. The learned prior reduces the ambiguities of occlusions and is robust to diverse occlusion types, which is then adopted to assist the occluded human motion capture. Experimental results show that our method can generate accurate and coherent human motions from occluded videos with good generalization ability and runtime efficiency. The dataset and code are publicly available at \url{https://github.com/boycehbz/CHOMP}.
Abstract（参考訳）: 近年, モノクロメーカレスモーションキャプチャでは大きな進歩がみられてきたが, 閉塞シナリオにおける満足な結果を得るためには, 最先端の手法がいまだに困難である。一つは、様々な3dポーズが同じ2次元の観測にマップできるため、オクルードされたモーションキャプチャは本質的に曖昧であり、常に信頼できない推定となる。もう1つは、ロバストなモデルのトレーニングに十分な人間のデータが使えないことである。障害に対処するために,本研究のキー・イデアは,非閉塞型人間データを用いて,自己教師付き戦略による閉塞型人間に先立って,関節レベルの空間-時空間運動を学習することである。合成データと実際のオクルージョンデータのギャップをさらに小さくするため、トレーニングとテストの両方に使用できる最初の3d occluded motion dataset~(ocmotion)を構築した。本研究では,2次元地図の動作を符号化し,非閉塞データからオクルージョンを合成する。次に、空間時間層が結合レベル相関を学習するように設計される。学習前は咬合の曖昧さを減少させ, 多様な咬合型に対して頑健であり, 閉塞した人間のモーションキャプチャを補助する。実験結果から,提案手法は,映像から高精度で一貫性のある人間の動きを生成できることを示す。データセットとコードは \url{https://github.com/boycehbz/CHOMP} で公開されている。

関連論文リスト

Reconstructing Close Human Interaction with Appearance and Proxemics Reasoning [50.76723760768117]
既存の人間のポーズ推定手法では、既存の映像からもっともらしい密接な相互作用を回復できない。人間の外見は、これらの障害に対処するための簡単な手がかりとなる。本研究では,人間の外見,社会的プロキシ,物理法則に制約された身体接触により,正確な対話動作を再構築するための2分岐最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-03T12:19:26Z)
Mocap-2-to-3: Multi-view Lifting for Monocular Motion Recovery with 2D Pretraining [49.223455189395025]
Mocap-2-to-3は単分子入力からマルチビューリフトを実行する新しいフレームワークである。豊富な2次元データを活用するため、複雑な3次元運動を多視点合成に分解する。本手法は,カメラ空間のモーションリアリズムと世界空間の人間の位置決めの両面において,最先端のアプローチを超越した手法である。
論文参考訳（メタデータ） (2025-03-05T06:32:49Z)
StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文参考訳（メタデータ） (2024-07-30T04:57:21Z)
Occlusion-Aware 3D Motion Interpretation for Abnormal Behavior Detection [10.782354892545651]
我々は,メッシュ頂点とヒト関節の3次元座標をモノクロビデオから再構成し,運動異常を識別するOAD2Dを提案する。動作特徴の定量化にVQVAEを用いるM2Tモデルと組み合わせることで、異常姿勢推定を再構成する。本研究は, 重度・自己閉塞性に対する異常行動検出のロバスト性を示すものである。
論文参考訳（メタデータ） (2024-07-23T18:41:16Z)
Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。情報ソースを補完するために慣性センサが導入された。物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文参考訳（メタデータ） (2024-04-27T09:02:42Z)
RoHM: Robust Human Motion Reconstruction via Diffusion [58.63706638272891]
RoHMは、モノクロRGB(-D)ビデオから頑健な3次元人間の動きを復元するためのアプローチである。ノイズと閉鎖された入力データに条件付けし、一貫した大域座標で完全な可塑性運動を再構成した。本手法は,テスト時に高速でありながら,定性的かつ定量的に最先端の手法より優れる。
論文参考訳（メタデータ） (2024-01-16T18:57:50Z)
STRIDE: Single-video based Temporally Continuous Occlusion-Robust 3D Pose Estimation [27.854074900345314]
本研究では,STIDE (Single-video based TempoRally contInuous Occlusion-Robust 3D Estimation Pose) を提案する。筆者らのフレームワークは,モデルに依存しない柔軟性を示し,既製の3Dポーズ推定手法を用いて,堅牢性と時間的整合性を向上させる。
論文参考訳（メタデータ） (2023-12-24T11:05:10Z)
Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文参考訳（メタデータ） (2022-07-29T22:12:50Z)
Homography Loss for Monocular 3D Object Detection [54.04870007473932]
ホログラフィーロス(Homography Loss)と呼ばれる,2次元情報と3次元情報の両方を利用する識別可能なロス関数を提案する。提案手法は,KITTI 3Dデータセットにおいて,他の最先端技術と比較して高い性能を示す。
論文参考訳（メタデータ） (2022-04-02T03:48:03Z)
Neural Monocular 3D Human Motion Capture with Physical Awareness [76.55971509794598]
物理的に可塑性なマーカーレス3次元モーションキャプチャのための新しいトレーニングシステムを提案する。人間のモーションキャプチャのためのほとんどのニューラルな手法とは異なり、我々のアプローチは物理的および環境的な制約を認識している。様々な場面でインタラクティブなフレームレートで、滑らかで物理的に原理化された3dモーションを生成する。
論文参考訳（メタデータ） (2021-05-03T17:57:07Z)
Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。本稿では,D2S(Deep-to-scale)投影法を提案する。
論文参考訳（メタデータ） (2020-10-27T03:31:35Z)
Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文参考訳（メタデータ） (2020-10-13T15:24:28Z)
Cascaded deep monocular 3D human pose estimation with evolutionary training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文参考訳（メタデータ） (2020-06-14T03:09:52Z)
3D Human Pose Estimation using Spatio-Temporal Networks with Explicit Occlusion Training [40.933783830017035]
近年の大きな進歩にもかかわらず、モノラルなタスクから3Dのポーズを推定することは依然として難しい課題である。頑健な3次元ポーズ推定のための時間的ビデオネットワークを提案する。本研究では,各フレームに2次元関節やキーポイントの予測,および3次元関節やキーポイントを推定するために,多段階の時間的畳み込みネットワーク(TCN)を適用した。
論文参考訳（メタデータ） (2020-04-07T09:12:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。