論文の概要: PoseBERT: A Generic Transformer Module for Temporal 3D Human Modeling
- arxiv url: http://arxiv.org/abs/2208.10211v1
- Date: Mon, 22 Aug 2022 11:30:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:33:54.926450
- Title: PoseBERT: A Generic Transformer Module for Temporal 3D Human Modeling
- Title(参考訳): PoseBERT: 時間的3次元人体モデリングのためのジェネリックトランスフォーマーモジュール
- Authors: Fabien Baradel, Romain Br\'egier, Thibault Groueix, Philippe
Weinzaepfel, Yannis Kalantidis, Gr\'egory Rogez
- Abstract要約: PoseBERTは3Dモーションキャプチャーデータで完全にトレーニングされたトランスフォーマーモジュールである。
シンプルで汎用的で汎用的で、あらゆるイメージベースモデルの上にプラグインして、ビデオベースモデルで変換することができる。
実験結果から,多種多様なポーズ推定手法上にPoseBERTを追加することにより,常に性能が向上することが確認された。
- 参考スコア(独自算出の注目度): 23.420076136028687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training state-of-the-art models for human pose estimation in videos requires
datasets with annotations that are really hard and expensive to obtain.
Although transformers have been recently utilized for body pose sequence
modeling, related methods rely on pseudo-ground truth to augment the currently
limited training data available for learning such models. In this paper, we
introduce PoseBERT, a transformer module that is fully trained on 3D Motion
Capture (MoCap) data via masked modeling. It is simple, generic and versatile,
as it can be plugged on top of any image-based model to transform it in a
video-based model leveraging temporal information. We showcase variants of
PoseBERT with different inputs varying from 3D skeleton keypoints to rotations
of a 3D parametric model for either the full body (SMPL) or just the hands
(MANO). Since PoseBERT training is task agnostic, the model can be applied to
several tasks such as pose refinement, future pose prediction or motion
completion without finetuning. Our experimental results validate that adding
PoseBERT on top of various state-of-the-art pose estimation methods
consistently improves their performances, while its low computational cost
allows us to use it in a real-time demo for smoothly animating a robotic hand
via a webcam. Test code and models are available at
https://github.com/naver/posebert.
- Abstract(参考訳): ビデオにおける人間のポーズ推定のための最先端モデルのトレーニングには、本当に難しくて高価なアノテーションを持つデータセットが必要である。
近年、トランスフォーマーはボディポーズシーケンスモデリングに利用されてきたが、関連する手法は擬似地下真理を利用して、そのようなモデルを学ぶのに利用可能な、現在限られたトレーニングデータを増やしている。
本稿では,3次元モーションキャプチャ(MoCap)データをマスクモデリングにより完全にトレーニングしたトランスフォーマーモジュールPoseBERTを紹介する。
シンプルで汎用的で汎用的で、任意のイメージベースモデルの上にプラグインして、時間情報を活用するビデオベースモデルに変換することができる。
全身(SMPL)と片手(MANO)の3次元パラメトリックモデルにおいて,3次元骨格キーポイントから3次元パラメトリックモデルへの異なる入力を持つPoseBERTの変種を紹介した。
PoseBERTトレーニングはタスクに依存しないため、モデルは微調整なしでポーズ修正、将来のポーズ予測、動作完了などのタスクに適用することができる。
実験結果から,PoseBERTを様々な最先端ポーズ推定手法上に付加することで,性能が常に向上する一方,計算コストの低さにより,ロボットハンドをウェブカメラでスムーズにアニメーション化するための実時間デモに使用することができることがわかった。
テストコードとモデルはhttps://github.com/naver/posebertで入手できる。
関連論文リスト
- HeadCraft: Modeling High-Detail Shape Variations for Animated 3DMMs [9.790185628415301]
本稿では,3DMM上での詳細な3次元頭部メッシュの生成モデルを提案する。
変位のUVマップを一般化するために,StyleGANモデルを訓練する。
非条件生成の結果を実測および部分観察に適合させる。
論文 参考訳(メタデータ) (2023-12-21T18:57:52Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - T3VIP: Transformation-based 3D Video Prediction [49.178585201673364]
本稿では,シーンを対象部品に分解することで3次元動きを明示的にモデル化する3次元映像予測手法を提案する。
我々のモデルは、完全に教師なしであり、現実世界の性質を捉え、画像と点のクラウド領域における観察の手がかりがその学習信号を構成する。
我々の知る限り、我々のモデルは、静止カメラの未来をRGB-Dビデオで予測する最初の生成モデルである。
論文 参考訳(メタデータ) (2022-09-19T15:01:09Z) - BANMo: Building Animatable 3D Neural Models from Many Casual Videos [135.64291166057373]
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。
実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
論文 参考訳(メタデータ) (2021-12-23T18:30:31Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Leveraging MoCap Data for Human Mesh Recovery [27.76352018682937]
本研究では,3次元モーションキャプチャ(MoCap)データからのポーズが,画像ベースおよびビデオベースのヒューマンメッシュ回復手法の改善に有効かどうかを検討する。
また,MoCapデータからの合成レンダリングによる微調整画像ベースモデルの性能向上が期待できる。
ポーズパラメータを直接回帰するトランスフォーマーモジュールであるPoseBERTを導入し、マスク付きモデリングでトレーニングする。
論文 参考訳(メタデータ) (2021-10-18T12:43:00Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Combining Implicit Function Learning and Parametric Models for 3D Human
Reconstruction [123.62341095156611]
深層学習近似として表される暗黙の関数は、3次元曲面の再構成に強力である。
このような機能は、コンピュータグラフィックスとコンピュータビジョンの両方に柔軟なモデルを構築するのに不可欠である。
詳細に富んだ暗黙関数とパラメトリック表現を組み合わせた方法論を提案する。
論文 参考訳(メタデータ) (2020-07-22T13:46:14Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。