論文の概要: Learning Quality-aware Representation for Multi-person Pose Regression
- arxiv url: http://arxiv.org/abs/2201.01087v1
- Date: Tue, 4 Jan 2022 11:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-05 18:02:19.524463
- Title: Learning Quality-aware Representation for Multi-person Pose Regression
- Title(参考訳): マルチパーソン・ポーズ・レグレッションのための品質認識表現の学習
- Authors: Yabo Xiao, Dongdong Yu, Xiaojuan Wang, Lei Jin, Guoli Wang, Qian Zhang
- Abstract要約: 我々は、回帰品質認識表現を学習する。
提案手法は,MS COCOテストデブセットにおける71.7 APの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 8.83185608408674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Off-the-shelf single-stage multi-person pose regression methods generally
leverage the instance score (i.e., confidence of the instance localization) to
indicate the pose quality for selecting the pose candidates. We consider that
there are two gaps involved in existing paradigm:~1) The instance score is not
well interrelated with the pose regression quality.~2) The instance feature
representation, which is used for predicting the instance score, does not
explicitly encode the structural pose information to predict the reasonable
score that represents pose regression quality. To address the aforementioned
issues, we propose to learn the pose regression quality-aware representation.
Concretely, for the first gap, instead of using the previous instance
confidence label (e.g., discrete {1,0} or Gaussian representation) to denote
the position and confidence for person instance, we firstly introduce the
Consistent Instance Representation (CIR) that unifies the pose regression
quality score of instance and the confidence of background into a pixel-wise
score map to calibrates the inconsistency between instance score and pose
regression quality. To fill the second gap, we further present the Query
Encoding Module (QEM) including the Keypoint Query Encoding (KQE) to encode the
positional and semantic information for each keypoint and the Pose Query
Encoding (PQE) which explicitly encodes the predicted structural pose
information to better fit the Consistent Instance Representation (CIR). By
using the proposed components, we significantly alleviate the above gaps. Our
method outperforms previous single-stage regression-based even bottom-up
methods and achieves the state-of-the-art result of 71.7 AP on MS COCO test-dev
set.
- Abstract(参考訳): off-the-shelf single-stage multi-person pose regression methodは一般にインスタンススコア(すなわちインスタンスローカライゼーションの信頼度)を利用して、ポーズ候補を選択するポーズ品質を示す。
1) 既存のパラダイムには2つのギャップがあると考えている。
~2) インスタンスの特徴表現は、インスタンススコアの予測に使われるが、ポーズ回帰品質を表す合理的なスコアを予測するために、構造的なポーズ情報を明示的にエンコードしていない。
上記の課題に対処するために,ポーズ回帰品質認識表現の学習を提案する。
具体的には、第1のギャップに対して、前のインスタンス信頼度ラベル(例えば離散 {1,0} やガウス表現)を使用して人のインスタンスの位置と信頼度を示す代わりに、まず、インスタンスのポーズ回帰品質スコアとバックグラウンドの信頼度を統合する一貫性インスタンス表現(cir)を画素単位のスコアマップに導入し、インスタンススコアとポーズ回帰品質の矛盾を対応付けます。
さらに、第2のギャップを埋めるために、各キーポイントの位置および意味情報をエンコードするキーポイントクエリエンコーディング(kqe)と、予測された構造的ポーズ情報を明示的にエンコードして一貫性のあるインスタンス表現(cir)に適合させるポーズクエリエンコーディング(pqe)を含むクエリエンコーディングモジュール(qem)を提案する。
提案するコンポーネントを用いることで,上記のギャップを大幅に緩和する。
提案手法は従来の単段回帰に基づくボトムアップ手法よりも優れており,MS COCOテストデブセットにおける71.7 APの最先端結果が得られる。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - Regression-free Blind Image Quality Assessment with Content-Distortion
Consistency [42.683300312253884]
画像品質評価のための回帰フリーフレームワークを提案する。
これは、セマンティックな特徴空間と歪みのある特徴空間を組み込むことで、局所的に類似したインスタンスを検索することに基づいている。
提案手法は, 最先端の回帰に基づく手法と比較して, 競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-07-18T14:19:28Z) - DQ-DETR: Dual Query Detection Transformer for Phrase Extraction and
Grounding [34.078590816368056]
句抽出と接地(PEG)の両面を考慮した視覚的接地の問題について検討する。
PEGはテキストからフレーズを抽出し、画像からオブジェクトを同時に見つけるモデルを必要とする。
画像とテキストの異なる特徴を探索する2つのクエリを導入した新しいDQ-DETRモデルを提案する。
論文 参考訳(メタデータ) (2022-11-28T16:30:46Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Poseur: Direct Human Pose Regression with Transformers [119.79232258661995]
単一画像からの2次元人間のポーズ推定に対する直接回帰に基づくアプローチを提案する。
私たちのフレームワークはエンドツーエンドの差別化が可能で、キーポイント間の依存関係を自然に活用することを学びます。
我々のアプローチは、最も優れたヒートマップベースのポーズ推定手法と比較して好意的に機能する最初の回帰ベースのアプローチである。
論文 参考訳(メタデータ) (2022-01-19T04:31:57Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。