論文の概要: TokenPose: Learning Keypoint Tokens for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2104.03516v1
- Date: Thu, 8 Apr 2021 05:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:08:09.318944
- Title: TokenPose: Learning Keypoint Tokens for Human Pose Estimation
- Title(参考訳): TokenPose: 人間の視点推定のためのキーポイントトークンの学習
- Authors: Yanjie Li, Shoukui Zhang, Zhicheng Wang, Sen Yang, Wankou Yang,
Shu-Tao Xia, Erjin Zhou
- Abstract要約: 人間の姿勢推定のためのToken表現に基づく新しいアプローチを提案する(TokenPose)。
詳しくは、各キーポイントは、画像から制約関係と外観手がかりを同時に学習するトークンとして明示的に埋め込まれている。
実験によると、小規模で大規模なTokenPoseモデルは、最先端のCNNベースのモデルと同等でありながら、より軽量である。
- 参考スコア(独自算出の注目度): 44.313782042852246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation deeply relies on visual clues and anatomical
constraints between parts to locate keypoints. Most existing CNN-based methods
do well in visual representation, however, lacking in the ability to explicitly
learn the constraint relationships between keypoints. In this paper, we propose
a novel approach based on Token representation for human Pose
estimation~(TokenPose). In detail, each keypoint is explicitly embedded as a
token to simultaneously learn constraint relationships and appearance cues from
images. Extensive experiments show that the small and large TokenPose models
are on par with state-of-the-art CNN-based counterparts while being more
lightweight. Specifically, our TokenPose-S and TokenPose-L achieve 72.5 AP and
75.8 AP on COCO validation dataset respectively, with significant reduction in
parameters (\textcolor{red}{ $\downarrow80.6\%$} ; \textcolor{red}{$\downarrow$
$56.8\%$}) and GFLOPs (\textcolor{red}{$\downarrow$$ 75.3\%$};
\textcolor{red}{$\downarrow$ $24.7\%$}).
- Abstract(参考訳): 人間のポーズ推定は、キーポイントを見つけるために部品間の視覚的手がかりと解剖学的制約に深く依存する。
しかし、既存のcnnベースのメソッドの多くは視覚的表現に優れており、キーポイント間の制約関係を明示的に学習する能力が欠けている。
本稿では,人間のポーズ推定のためのトークン表現(tokenpose)に基づく新しい手法を提案する。
詳しくは、各キーポイントは、画像から制約関係と外観手がかりを同時に学習するトークンとして明示的に埋め込まれている。
広範な実験により、小規模および大規模のトークンポスモデルは、より軽量である一方で、最先端のcnnベースのモデルと同等であることが示された。
具体的には、TokenPose-S と TokenPose-L はそれぞれ 72.5 AP と 75.8 AP を COCO 検証データセット上で達成し、パラメータ (\textcolor{red}{ $\downarrow 80.6\%$} 、 \textcolor{red}{$\downarrow$ 5,6.8\%$} ) と GFLOPs (\textcolor{red}{$\downarrow$ 75.3\%$} 、 \textcolor{red}{$\downarrow$ $24.7\%$} が大幅に削減された。
関連論文リスト
- SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt [59.280491260635266]
視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
論文 参考訳(メタデータ) (2023-12-16T08:23:43Z) - Neural Interactive Keypoint Detection [34.79658681345932]
Click-Poseはエンドツーエンドの対話型キーポイント検出フレームワークである。
2Dキーポイントアノテーションのラベル付けコストを10倍以上削減することができる。
論文 参考訳(メタデータ) (2023-08-20T06:36:49Z) - Group Pose: A Simple Baseline for End-to-End Multi-person Pose
Estimation [102.02917299051757]
グループ・ポース(Group Pose)と呼ばれる単純だが効果的なトランスフォーマー・アプローチを提案する。
すべての$Ntimes(K+1)$クエリに対して単一の自己アテンションを、その後の2つのグループ自己アテンションに置き換える。
MS COCO と CrowdPose の実験結果から,従来の手法よりもヒトボックスの監督を伴わないアプローチの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-08-14T17:58:04Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Human Pose as Compositional Tokens [88.28348144244131]
本稿では,PoseをPCT(Compincial Tokens)と名づけた構造的表現について述べる。
これはM個の離散トークンによるポーズを表し、それぞれがいくつかの相互依存結合を持つ部分構造を特徴づける。
事前に学習したデコーダネットワークを使用してトークンからのポーズを後処理なしで復元する。
論文 参考訳(メタデータ) (2023-03-21T07:14:18Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Greedy Offset-Guided Keypoint Grouping for Human Pose Estimation [31.468003041368814]
私たちは、異なる人物からすべてのキーポイントを無差別に推測するために、Hourglass Networkを使用します。
我々は、予測された誘導オフセットを利用して、候補のキーポイントを複数の人間のポーズにグループ化します。
当社のアプローチは、公正な条件下でのCOCOデータセットの課題に関する最先端技術に匹敵するものです。
論文 参考訳(メタデータ) (2021-07-07T09:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。