論文の概要: ORTexME: Occlusion-Robust Human Shape and Pose via Temporal Average
Texture and Mesh Encoding
- arxiv url: http://arxiv.org/abs/2309.12183v1
- Date: Thu, 21 Sep 2023 15:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:28:09.092435
- Title: ORTexME: Occlusion-Robust Human Shape and Pose via Temporal Average
Texture and Mesh Encoding
- Title(参考訳): ORTexME: 時間平均テクスチャとメッシュエンコーディングによる閉塞型人体形状とポース
- Authors: Yu Cheng, Bo Wang, Robby T. Tan
- Abstract要約: 3次元の人体形状と単眼ビデオからのポーズ推定では、限定ラベル付きデータで訓練されたモデルは、閉塞のあるビデオにはうまく一般化できない。
我々は,ORTexME(Occlusion-robust temporal method, ORTexME)を紹介した。
提案手法は,1.8P-MPJPE誤り低減を実現する多人数3DPWデータセットにおいて,大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 35.49066795648395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In 3D human shape and pose estimation from a monocular video, models trained
with limited labeled data cannot generalize well to videos with occlusion,
which is common in the wild videos. The recent human neural rendering
approaches focusing on novel view synthesis initialized by the off-the-shelf
human shape and pose methods have the potential to correct the initial human
shape. However, the existing methods have some drawbacks such as, erroneous in
handling occlusion, sensitive to inaccurate human segmentation, and ineffective
loss computation due to the non-regularized opacity field. To address these
problems, we introduce ORTexME, an occlusion-robust temporal method that
utilizes temporal information from the input video to better regularize the
occluded body parts. While our ORTexME is based on NeRF, to determine the
reliable regions for the NeRF ray sampling, we utilize our novel average
texture learning approach to learn the average appearance of a person, and to
infer a mask based on the average texture. In addition, to guide the
opacity-field updates in NeRF to suppress blur and noise, we propose the use of
human body mesh. The quantitative evaluation demonstrates that our method
achieves significant improvement on the challenging multi-person 3DPW dataset,
where our method achieves 1.8 P-MPJPE error reduction. The SOTA rendering-based
methods fail and enlarge the error up to 5.6 on the same dataset.
- Abstract(参考訳): 3次元人間の形状と単眼ビデオからのポーズ推定では、限定ラベル付きデータで訓練されたモデルは、野生のビデオでよく見られる閉塞のあるビデオにはうまく一般化できない。
近年の人間のニューラルレンダリングアプローチは、既成の人間の形状とポーズ法によって初期化された新しいビュー合成に焦点を当てており、初期人の形状を補正する可能性がある。
しかし,既存の手法には,オクルージョン処理の誤り,不正確な人間のセグメンテーションに敏感な,非正規化不透明度場による損失計算などの欠点がある。
これらの問題に対処するために、ORTexMEは、入力ビデオからの時間情報を利用して、閉塞した身体部分の規則化を改善する。
ORTexMEは、NeRFをベースとして、NeRFサンプリングの信頼性の高い領域を判定する一方で、新しい平均テクスチャ学習手法を用いて、人の平均外観を学習し、平均テクスチャに基づいてマスクを推測する。
また,NeRFにおける不透明領域更新を誘導し,ぼやけや騒音を抑制するため,人体メッシュの利用を提案する。
本手法は,マルチパーソン3dpwデータセットにおいて,1.8p-mpjpe誤差を低減できるという大きな改善が得られた。
SOTAレンダリングベースのメソッドは、同じデータセット上でエラーを5.6まで拡大する。
関連論文リスト
- DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation [55.179287851188036]
人間のポーズと形状の復元のための新しいオールインワンステージフレームワークであるAiOSを、追加の人間検出ステップなしで導入する。
まず、画像中の人間の位置を探索し、各インスタンスのグローバルな機能をエンコードするために、人間のトークンを使用します。
そして、画像中の人間の関節を探索し、きめ細かい局所的特徴を符号化するジョイント関連トークンを導入する。
論文 参考訳(メタデータ) (2024-03-26T17:59:23Z) - TAPE: Temporal Attention-based Probabilistic human pose and shape
Estimation [7.22614468437919]
既存の手法では復元のあいまいさを無視し、3Dポーズの1つの決定論的推定を提供する。
本稿では,RGBビデオで動作する時間的注意に基づく確率的人間のポーズと形状推定手法を提案する。
TAPEは標準ベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-29T06:08:43Z) - Neural Capture of Animatable 3D Human from Monocular Video [38.974181971541846]
本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。
本手法は,メッシュをベースとしたパラメトリックな3次元人体モデルを用いた動的ニューラルレージアンス場(NeRF)に基づく。
論文 参考訳(メタデータ) (2022-08-18T09:20:48Z) - Direct Dense Pose Estimation [138.56533828316833]
複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
論文 参考訳(メタデータ) (2022-04-04T06:14:38Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Occluded Human Mesh Recovery [23.63235079216075]
我々は、画像空間コンテキストを組み込んだ新しいトップダウンメッシュ回復アプローチであるOCHMR(Occluded Human Mesh Recovery)を提案する。
OCHMRは、3DPW、CrowdPose、OCHumanといった挑戦的なマルチパーソンベンチマークにおいて優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-24T21:39:20Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。