論文の概要: ActionPose: Pretraining 3D Human Pose Estimation with the Dark Knowledge of Action
- arxiv url: http://arxiv.org/abs/2409.00449v1
- Date: Sat, 31 Aug 2024 13:03:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 14:49:38.597788
- Title: ActionPose: Pretraining 3D Human Pose Estimation with the Dark Knowledge of Action
- Title(参考訳): ActionPose:ダーク・ナレッジ・オブ・アクションによる3次元人文推定の事前学習
- Authors: Longyun Liao, Rong Zheng,
- Abstract要約: 2次元から3次元の人間のポーズリフトは、深さのあいまいさと閉塞性により不適切な問題である。
本稿では,アクションラベルのテキスト埋め込みとモーション埋め込みを連携させることにより,アクション知識を活用するフレームワークであるActionPoseを提案する。
実験は、公開データセット上での3Dポーズ推定における最先端のパフォーマンスを達成するActionPoseの有効性を実証する。
- 参考スコア(独自算出の注目度): 3.9134031118910264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 2D-to-3D human pose lifting is an ill-posed problem due to depth ambiguity and occlusion. Existing methods relying on spatial and temporal consistency alone are insufficient to resolve these problems because they lack semantic information of the motions. To overcome this, we propose ActionPose, a framework that leverages action knowledge by aligning motion embeddings with text embeddings of fine-grained action labels. ActionPose operates in two stages: pretraining and fine-tuning. In the pretraining stage, the model learns to recognize actions and reconstruct 3D poses from masked and noisy 2D poses. During the fine-tuning stage, the model is further refined using real-world 3D human pose estimation datasets without action labels. Additionally, our framework incorporates masked body parts and masked time windows in motion modeling to mitigate the effects of ambiguous boundaries between actions in both temporal and spatial domains. Experiments demonstrate the effectiveness of ActionPose, achieving state-of-the-art performance in 3D pose estimation on public datasets, including Human3.6M and MPI-INF-3DHP. Specifically, ActionPose achieves an MPJPE of 36.7mm on Human3.6M with detected 2D poses as input and 15.5mm on MPI-INF-3DHP with ground-truth 2D poses as input.
- Abstract(参考訳): 2次元から3次元の人間のポーズリフトは、深さのあいまいさと閉塞性により不適切な問題である。
空間的・時間的整合性のみに依存する既存の手法は、動作の意味情報を欠いているため、これらの問題を解決するには不十分である。
これを解決するために,アクションラベルの詳細なテキスト埋め込みとモーション埋め込みを連携させることにより,アクション知識を活用するフレームワークであるActionPoseを提案する。
ActionPoseは、事前トレーニングと微調整の2段階で動作する。
事前訓練段階では、モデルは行動を認識し、マスクされた2Dポーズから3Dポーズを再構築する。
微調整の段階では、実世界の人間のポーズ推定データセットを使ってアクションラベルなしでモデルをさらに洗練する。
さらに,動作モデルにマスク付きボディパーツとマスク付きタイムウィンドウを組み込むことにより,時間領域と空間領域の両方における動作間のあいまいな境界の影響を軽減する。
実験では、Human3.6MやMPI-INF-3DHPを含む公開データセット上での3Dポーズ推定において、最先端のパフォーマンスを達成するActionPoseの有効性が示されている。
具体的には、ActionPoseはHuman3.6Mで36.7mmのMPJPEを、検出された2Dポーズを入力として、15.5mmのMPI-INF-3DHPで、地上の2Dポーズを入力として達成する。
関連論文リスト
- MPL: Lifting 3D Human Pose from Multi-view 2D Poses [75.26416079541723]
本稿では,大規模かつリッチなトレーニングデータセットが存在する2次元ポーズ推定と,トランスフォーマーネットワークを用いた2次元から3次元ポーズリフトを提案する。
実験の結果,MPJPEの誤差は2次元ポーズを三角測量した3次元ポーズと比較して最大45%減少することがわかった。
論文 参考訳(メタデータ) (2024-08-20T12:55:14Z) - ActionPrompt: Action-Guided 3D Human Pose Estimation With Text and Pose
Prompting [42.70886372894809]
本稿では,Action Prompt Module (APM) と呼ばれる3次元ポーズ推定のための様々なアクションヒントを効果的にマイニングするプラグイン・アンド・プレイモジュールを提案する。
具体的には、アクションラベルを直接埋め込み、ラベル内のリッチ言語情報をポーズシーケンスに転送する新しいアクション関連テキストプロンプトモジュール(ATP)を最初に提示する。
さらに,各アクションの位置認識ポーズパターンをマイニングするために,アクション固有のPose Promptモジュール(APP)を導入する。
論文 参考訳(メタデータ) (2023-07-18T07:34:04Z) - MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling [59.74064212110042]
mpmcanは、3D人間のポーズ推定、クラッドされた2Dポーズからの3Dポーズ推定、3Dポーズ完了をtextocbsingleフレームワークで処理する。
MPI-INF-3DHPにおいて、広く使われているポーズデータセットの広範な実験とアブレーション研究を行い、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-06-29T10:30:00Z) - On the Benefits of 3D Pose and Tracking for Human Action Recognition [77.07134833715273]
動作認識のためのトラッキングと3Dポーズの利点を示す。
トラックレット上での3次元ポーズと文脈的外観を融合させることにより,ラグランジアン行動認識モデルを提案する。
提案手法は,AVA v2.2データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-03T17:59:49Z) - 3D Cinemagraphy from a Single Image [73.09720823592092]
3Dシネマグラフィー(3D Cinemagraphy)は、3D画像と2Dアニメーションを融合させる新しい技術である。
静止画1枚を入力として、視覚コンテンツアニメーションとカメラモーションの両方を含むビデオを生成することを目標としています。
論文 参考訳(メタデータ) (2023-03-10T06:08:23Z) - SPGNet: Spatial Projection Guided 3D Human Pose Estimation in Low
Dimensional Space [14.81199315166042]
本研究では,多次元再投影と教師あり学習を混合した3次元人間のポーズ推定手法を提案する。
提案手法は,データセットHuman3.6Mの推定結果に基づいて,定性的にも定量的にも,多くの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-06-04T00:51:00Z) - DSC-PoseNet: Learning 6DoF Object Pose Estimation via Dual-scale
Consistency [43.09728251735362]
2Dオブジェクト境界ボックスから6DoFオブジェクトポーズを得るための2ステップポーズ推定フレームワークを提案する。
最初のステップでは、フレームワークはオブジェクトを実際のデータと合成データからセグメンテーションすることを学ぶ。
第2のステップでは,dsc-posenetという,デュアルスケールなポーズ推定ネットワークを設計する。
提案手法は,合成データに基づいて訓練した最先端のモデルよりも大きなマージンで優れる。
論文 参考訳(メタデータ) (2021-04-08T10:19:35Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z) - AnimePose: Multi-person 3D pose estimation and animation [9.323689681059504]
動作中の人間の3Dアニメーションは、人体全体に複数のモーショントラッカーを配置して、すべての手足の動きを追跡するため、非常に難しい。
これは時間がかかり、運動センサー付きエキソスケルトンボディスーツの着用が不快になる可能性がある。
深層学習を用いた2次元映像から複数の人物の3次元アニメーションを生成する方法を提案する。
論文 参考訳(メタデータ) (2020-02-06T11:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。