論文の概要: ActionPrompt: Action-Guided 3D Human Pose Estimation With Text and Pose
Prompting
- arxiv url: http://arxiv.org/abs/2307.09026v1
- Date: Tue, 18 Jul 2023 07:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 15:51:55.358327
- Title: ActionPrompt: Action-Guided 3D Human Pose Estimation With Text and Pose
Prompting
- Title(参考訳): actionprompt:テキストとポーズプロンプトを用いた行動誘導型3次元ポーズ推定
- Authors: Hongwei Zheng, Han Li, Bowen Shi, Wenrui Dai, Botao Wan, Yu Sun, Min
Guo, Hongkai Xiong
- Abstract要約: 本稿では,Action Prompt Module (APM) と呼ばれる3次元ポーズ推定のための様々なアクションヒントを効果的にマイニングするプラグイン・アンド・プレイモジュールを提案する。
具体的には、アクションラベルを直接埋め込み、ラベル内のリッチ言語情報をポーズシーケンスに転送する新しいアクション関連テキストプロンプトモジュール(ATP)を最初に提示する。
さらに,各アクションの位置認識ポーズパターンをマイニングするために,アクション固有のPose Promptモジュール(APP)を導入する。
- 参考スコア(独自算出の注目度): 42.70886372894809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent 2D-to-3D human pose estimation (HPE) utilizes temporal consistency
across sequences to alleviate the depth ambiguity problem but ignore the action
related prior knowledge hidden in the pose sequence. In this paper, we propose
a plug-and-play module named Action Prompt Module (APM) that effectively mines
different kinds of action clues for 3D HPE. The highlight is that, the mining
scheme of APM can be widely adapted to different frameworks and bring
consistent benefits. Specifically, we first present a novel Action-related Text
Prompt module (ATP) that directly embeds action labels and transfers the rich
language information in the label to the pose sequence. Besides, we further
introduce Action-specific Pose Prompt module (APP) to mine the position-aware
pose pattern of each action, and exploit the correlation between the mined
patterns and input pose sequence for further pose refinement. Experiments show
that APM can improve the performance of most video-based 2D-to-3D HPE
frameworks by a large margin.
- Abstract(参考訳): 近年の2d-to-3d human pose estimation (hpe) では,シーケンス間の時間的一貫性を活用し,奥行き曖昧性問題を軽減するとともに,ポーズ系列に隠された先行知識を無視している。
本稿では,3d hpeの動作ヒントを効果的にマイニングするアクションプロンプトモジュール(apm)を提案する。
APMのマイニングスキームは、様々なフレームワークに広く適応し、一貫した利点をもたらすことができる。
具体的には、アクションラベルを直接埋め込み、ラベル内のリッチ言語情報をポーズシーケンスに転送する新しいアクション関連テキストプロンプトモジュール(ATP)を最初に提示する。
さらに,各動作の位置認識されたポーズパターンをマイニングするためのアクション固有ポーズプロンプトモジュール(app)も導入し,マイニングされたパターンと入力ポーズシーケンスとの相関を利用してさらに姿勢改善を行う。
APMはビデオベースの2D-to-3D HPEフレームワークの性能を大幅に向上させることができる。
関連論文リスト
- UniPose: A Unified Multimodal Framework for Human Pose Comprehension, Generation and Editing [79.68232381605661]
さまざまなモダリティにまたがって人間のポーズを理解し、生成し、編集するためのフレームワークであるUniPoseを提案する。
具体的には、3Dポーズを個別のポーズトークンに変換するためにポーズトークンライザを適用し、統一語彙内のLCMへのシームレスな統合を可能にする。
統一的な学習戦略から恩恵を受けるUniPoseは、さまざまなポーズ関連タスク間で知識を効果的に伝達し、目に見えないタスクに適応し、拡張された能力を示す。
論文 参考訳(メタデータ) (2024-11-25T08:06:30Z) - ActionPose: Pretraining 3D Human Pose Estimation with the Dark Knowledge of Action [3.9134031118910264]
2次元から3次元の人間のポーズリフトは、深さのあいまいさと閉塞性により不適切な問題である。
本稿では,アクションラベルのテキスト埋め込みとモーション埋め込みを連携させることにより,アクション知識を活用するフレームワークであるActionPoseを提案する。
実験は、公開データセット上での3Dポーズ推定における最先端のパフォーマンスを達成するActionPoseの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-31T13:03:26Z) - FinePOSE: Fine-Grained Prompt-Driven 3D Human Pose Estimation via Diffusion Models [40.966197115577344]
3Dヒューマンポース推定タスクは、3D空間における人間の関節座標を予測するために2D画像またはビデオを使用する。
我々は3次元HPEの拡散モデルに基づくファイングレードプロンプト駆動型デノイザ(textbfFinePOSE)を提案する。
拡散モデルの逆過程を強化する3つのコアブロックから構成される。
公開シングルヒューマンポーズデータセットの実験では、FinePOSEが最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-05-08T17:09:03Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - On the Benefits of 3D Pose and Tracking for Human Action Recognition [77.07134833715273]
動作認識のためのトラッキングと3Dポーズの利点を示す。
トラックレット上での3次元ポーズと文脈的外観を融合させることにより,ラグランジアン行動認識モデルを提案する。
提案手法は,AVA v2.2データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-04-03T17:59:49Z) - PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose
Estimation [83.50127973254538]
既存の3D人間のポーズ推定器は、新しいデータセットへの一般化性能が悪い。
PoseAugは、より多くの多様性に向けて利用可能なトレーニングのポーズを強化することを学ぶ新しい自動増強フレームワークです。
論文 参考訳(メタデータ) (2021-05-06T06:57:42Z) - SportsCap: Monocular 3D Human Motion Capture and Fine-grained
Understanding in Challenging Sports Videos [40.19723456533343]
SportsCap - 3Dの人間の動きを同時に捉え、モノラルな挑戦的なスポーツビデオ入力からきめ細かなアクションを理解するための最初のアプローチを提案する。
本手法は,組込み空間に先立って意味的かつ時間的構造を持つサブモーションを,モーションキャプチャと理解に活用する。
このようなハイブリッドな動き情報に基づいて,マルチストリーム空間時空間グラフ畳み込みネットワーク(ST-GCN)を導入し,詳細なセマンティックアクション特性を予測する。
論文 参考訳(メタデータ) (2021-04-23T07:52:03Z) - Synthesis of Compositional Animations from Textual Descriptions [54.85920052559239]
「どんなに非構造的で複雑で、文を作りながら、それからもっともらしい動きを生成できるのか。」
「映画の脚本から3Dキャラクタをアニメーションしたり、ロボットに何をしたいのかを伝えるだけで動かせるのか?」
論文 参考訳(メタデータ) (2021-03-26T18:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。