論文の概要: Human Pose as Compositional Tokens
- arxiv url: http://arxiv.org/abs/2303.11638v1
- Date: Tue, 21 Mar 2023 07:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-22 16:11:32.058270
- Title: Human Pose as Compositional Tokens
- Title(参考訳): 構成トークンとしての人間のポーズ
- Authors: Zigang Geng and Chunyu Wang and Yixuan Wei and Ze Liu and Houqiang Li
and Han Hu
- Abstract要約: 本稿では,PoseをPCT(Compincial Tokens)と名づけた構造的表現について述べる。
これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。
事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。
- 参考スコア(独自算出の注目度): 88.28348144244131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose is typically represented by a coordinate vector of body joints or
their heatmap embeddings. While easy for data processing, unrealistic pose
estimates are admitted due to the lack of dependency modeling between the body
joints. In this paper, we present a structured representation, named Pose as
Compositional Tokens (PCT), to explore the joint dependency. It represents a
pose by M discrete tokens with each characterizing a sub-structure with several
interdependent joints. The compositional design enables it to achieve a small
reconstruction error at a low cost. Then we cast pose estimation as a
classification task. In particular, we learn a classifier to predict the
categories of the M tokens from an image. A pre-learned decoder network is used
to recover the pose from the tokens without further post-processing. We show
that it achieves better or comparable pose estimation results as the existing
methods in general scenarios, yet continues to work well when occlusion occurs,
which is ubiquitous in practice. The code and models are publicly available at
https://github.com/Gengzigang/PCT.
- Abstract(参考訳): ヒトのポーズは通常、身体関節またはそのヒートマップ埋め込みの座標ベクトルによって表される。
データ処理は容易であるが、身体関節間の依存性モデリングの欠如により非現実的なポーズ推定が認められる。
本稿では,Pose as compositional Tokens (PCT) という構造的表現を述べる。
これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。
構成設計により、少ない再構成誤差を低コストで達成することができる。
そして,分類タスクとしてポーズ推定を行った。
特に,画像からMトークンのカテゴリを予測する分類器を学習する。
事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。
一般的なシナリオでは,既存の手法と同等あるいは同等のポーズ推定結果が得られるが,閉塞が発生しても動作は良好であり,実際は至るところで行われている。
コードとモデルはhttps://github.com/Gengzigang/PCT.comで公開されている。
関連論文リスト
- DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - Learning from Abstract Images: on the Importance of Occlusion in a
Minimalist Encoding of Human Poses [0.0]
2D-to-D表現は、クロスデータセットのベンチマークではパフォーマンスが悪い。
本稿では,それを符号化しながら3次元情報を用いた新しい表現を提案する。
その結果、カメラの視点から完全に独立したポーズを予測できる。
論文 参考訳(メタデータ) (2023-07-19T10:45:49Z) - Generalizable Pose Estimation Using Implicit Scene Representations [4.124185654280966]
6-DoFのポーズ推定は、ロボット操作パイプラインの重要なコンポーネントである。
本稿では,異なるポーズで表現できる十分な情報を含むモデルを用いたポーズ推定の一般化能力について論じる。
最終評価では,既存手法と比較して推論性能と速度が大幅に向上した。
論文 参考訳(メタデータ) (2023-05-26T20:42:52Z) - Category-Level Pose Retrieval with Contrastive Features Learnt with
Occlusion Augmentation [31.73423009695285]
本稿では,ダイナミックマージンと連続的なポーズラベル空間を持つ対照的な損失を用いたカテゴリーレベルのポーズ推定手法を提案する。
提案手法は,PASCAL3DおよびOccludedPASCAL3Dの最先端性能と,KITTI3Dの高品質化を実現する。
論文 参考訳(メタデータ) (2022-08-12T10:04:08Z) - Pose for Everything: Towards Category-Agnostic Pose Estimation [93.07415325374761]
Category-Agnostic Pose Estimation (CAPE) は、キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出することができるポーズ推定モデルを作成することを目的としている。
異なるキーポイント間のインタラクションと、サポートとクエリイメージの関係をキャプチャするために、トランスフォーマーベースのキーポイントインタラクションモジュール(KIM)を提案する。
また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。
論文 参考訳(メタデータ) (2022-07-21T09:40:54Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - Hierarchical Neural Implicit Pose Network for Animation and Motion
Retargeting [66.69067601079706]
HIPNetは、複数のポーズで訓練された暗黙のポーズネットワークである。
階層的な骨格に基づく表現を用いて、正準非正則空間上の符号付き距離関数を学習する。
種々の単目的および多目的のベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-12-02T03:25:46Z) - Nonparametric Structure Regularization Machine for 2D Hand Pose
Estimation [21.250031729596085]
手ポーズ推定は, 重度調音, 自己閉塞, 器質性が高いため, 身体ポーズ推定よりも困難である。
2次元手振り推定のための新しい非パラメトリック構造正規化機械(NSRM)を提案する。
論文 参考訳(メタデータ) (2020-01-24T03:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。