論文の概要: Location-free Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2205.12619v1
- Date: Wed, 25 May 2022 09:56:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 03:48:24.959669
- Title: Location-free Human Pose Estimation
- Title(参考訳): 位置自由人間のポーズ推定
- Authors: Xixia Xu, Yingguo Gao, Ke Yan, Xue Lin, Qi Zou
- Abstract要約: 人間のポーズ推定(HPE)は通常、高性能に到達するために大規模なトレーニングデータを必要とする。
キーポイント位置の監視なしに位置のないフレームワークを提案する。
CAMに基づく弱教師付きオブジェクトローカライゼーションに着想を得た結果,粒度HPEとオブジェクトレベルのローカライゼーションのギャップにより,粗いキーポイント位置がCAMを介して取得可能であることがわかった。
- 参考スコア(独自算出の注目度): 29.327982113378408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human pose estimation (HPE) usually requires large-scale training data to
reach high performance. However, it is rather time-consuming to collect
high-quality and fine-grained annotations for human body. To alleviate this
issue, we revisit HPE and propose a location-free framework without supervision
of keypoint locations. We reformulate the regression-based HPE from the
perspective of classification. Inspired by the CAM-based weakly-supervised
object localization, we observe that the coarse keypoint locations can be
acquired through the part-aware CAMs but unsatisfactory due to the gap between
the fine-grained HPE and the object-level localization. To this end, we propose
a customized transformer framework to mine the fine-grained representation of
human context, equipped with the structural relation to capture subtle
differences among keypoints. Concretely, we design a Multi-scale Spatial-guided
Context Encoder to fully capture the global human context while focusing on the
part-aware regions and a Relation-encoded Pose Prototype Generation module to
encode the structural relations. All these works together for strengthening the
weak supervision from image-level category labels on locations. Our model
achieves competitive performance on three datasets when only supervised at a
category-level and importantly, it can achieve comparable results with
fully-supervised methods with only 25\% location labels on MS-COCO and MPII.
- Abstract(参考訳): 人間のポーズ推定(HPE)は通常、高性能に到達するために大規模なトレーニングデータを必要とする。
しかし、人体に対する高品質できめ細かい注釈を収集するのにはかなり時間がかかる。
この問題を軽減するため,HPEを再検討し,キーポイント位置の監視なしに位置のないフレームワークを提案する。
回帰に基づくHPEを分類の観点から再構成する。
CAMに基づく弱教師付きオブジェクトローカライゼーションに着想を得た結果,粒度HPEとオブジェクトレベルのローカライゼーションのギャップにより,粗いキーポイント位置がCAMを介して取得可能であることがわかった。
この目的のために,キーポイント間の微妙な違いを捉える構造的関係を備えた,人間のコンテキストのきめ細かい表現をマイニングするカスタマイズトランスフォーマーフレームワークを提案する。
具体的には,マルチスケール空間誘導型コンテキストエンコーダを設計し,その構造関係を符号化する部分認識型領域と関係符号化型プロトタイプ生成モジュールに着目した。
これらすべてが協力して、画像レベルのカテゴリーラベルからの弱い監督を強化する。
本モデルでは,MS-COCOとMPIIの25%のロケーションラベルしか持たない完全教師付き手法で,カテゴリレベルでのみ教師された場合に,3つのデータセット上での競合性能を実現する。
関連論文リスト
- CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - DistFormer: Enhancing Local and Global Features for Monocular Per-Object
Distance Estimation [35.6022448037063]
物体ごとの距離推定は、自律運転、監視、ロボット工学などの安全上重要な応用において重要である。
既存のアプローチは、ローカル情報(すなわち、境界ボックスの割合)とグローバル情報という2つの尺度に依存している。
私たちの仕事は、地域とグローバルの両方の手段を強化することを目的としています。
論文 参考訳(メタデータ) (2024-01-06T10:56:36Z) - FocusTune: Tuning Visual Localization through Focus-Guided Sampling [61.79440120153917]
FocusTuneは、視覚的ローカライゼーションアルゴリズムの性能を改善するための焦点誘導サンプリング技術である。
ACEの魅力ある低ストレージと計算要求を維持しながら、FocusTuneは最先端のパフォーマンスを改善したり、一致させたりします。
ハイパフォーマンスとローコンピュートとストレージの要件の組み合わせは、特にモバイルロボティクスや拡張現実といった分野のアプリケーションには有望だ。
論文 参考訳(メタデータ) (2023-11-06T04:58:47Z) - Double-chain Constraints for 3D Human Pose Estimation in Images and
Videos [21.42410292863492]
深度情報を欠く2次元のポーズから3Dのポーズを再構築することは、人間の動きの複雑さと多様性のために困難である。
ポーズを制約する新しいモデルであるDouble-chain Graph Convolutional Transformer (DC-GCT)を提案する。
本稿では,DC-GCTが2つの挑戦的データセットに対して最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2023-08-10T02:41:18Z) - Unsupervised Camouflaged Object Segmentation as Domain Adaptation [5.304455190825436]
本研究では,対象オブジェクトが共通属性,すなわちカモフラージュ(camouflage)を所有する,教師なしカモフラージュオブジェクトセグメンテーション(UCOS)という新しいタスクについて検討する。
現状の教師なしモデルは、ジェネリックオブジェクトとカモフラーグオブジェクトのドメインギャップのため、UCOSの適応に苦慮している。
我々は、UCOSをソースフリーな教師なしドメイン適応タスク(UCOS-DA)として定式化し、モデルトレーニングプロセス全体において、ソースラベルとターゲットラベルの両方が欠落している。
論文 参考訳(メタデータ) (2023-08-08T18:46:16Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Unsupervised Part Discovery from Contrastive Reconstruction [90.88501867321573]
自己監督型視覚表現学習の目標は、強く伝達可能な画像表現を学習することである。
対象部分の発見とセグメンテーションに対する教師なしアプローチを提案する。
本手法は, 細粒度, 視覚的に異なるカテゴリ間でセマンティックな部分を生成する。
論文 参考訳(メタデータ) (2021-11-11T17:59:42Z) - Learning Local-Global Contextual Adaptation for Fully End-to-End
Bottom-Up Human Pose Estimation [37.63466061201821]
本稿では,完全エンドツーエンドかつ高速なボトムアップ人間のポーズ推定のための局所GlObal Contextual Adaptationの学習方法を提案する。
これは、ポーズ推定の不正確さに欠ける概念的に単純な中心オフセットの定式化に基づいている。
COCOのトレーニングモデルでは、私たちのLOGO-CAPは、挑戦的なOCHumanデータセットに対して大きなマージンで、先行技術よりも優れています。
論文 参考訳(メタデータ) (2021-09-08T13:15:01Z) - PGL: Prior-Guided Local Self-supervised Learning for 3D Medical Image
Segmentation [87.50205728818601]
本稿では,潜在特徴空間における局所的一貫性を学習するPGL(PresideedGuided Local)自己教師モデルを提案する。
我々のPGLモデルは、局所領域の特異な表現を学習し、したがって構造情報を保持できる。
論文 参考訳(メタデータ) (2020-11-25T11:03:11Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。