論文の概要: Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation
- arxiv url: http://arxiv.org/abs/2302.01593v1
- Date: Fri, 3 Feb 2023 08:18:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 16:54:53.932104
- Title: Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation
- Title(参考訳): 露骨箱検出によるエンドツーエンドマルチパーソンポーズ推定
- Authors: Jie Yang, Ailing Zeng, Shilong Liu, Feng Li, Ruimao Zhang, Lei Zhang
- Abstract要約: 本稿では,ED-Poseと呼ばれる多人数のPose推定のためのExplicit box Detectionを用いたエンドツーエンドフレームワークを提案する。
ヒューマンレベル(グローバル)とキーポイントレベル(ローカル)情報のコンテキスト学習を統一する。
L1回帰損失の完全なエンドツーエンドフレームワークとして、ED-Poseは、同じバックボーンの下で、ヒートマップベースのトップダウンメソッドを初めて上回った。
- 参考スコア(独自算出の注目度): 24.973118696495977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel end-to-end framework with Explicit box Detection
for multi-person Pose estimation, called ED-Pose, where it unifies the
contextual learning between human-level (global) and keypoint-level (local)
information. Different from previous one-stage methods, ED-Pose re-considers
this task as two explicit box detection processes with a unified representation
and regression supervision. First, we introduce a human detection decoder from
encoded tokens to extract global features. It can provide a good initialization
for the latter keypoint detection, making the training process converge fast.
Second, to bring in contextual information near keypoints, we regard pose
estimation as a keypoint box detection problem to learn both box positions and
contents for each keypoint. A human-to-keypoint detection decoder adopts an
interactive learning strategy between human and keypoint features to further
enhance global and local feature aggregation. In general, ED-Pose is
conceptually simple without post-processing and dense heatmap supervision. It
demonstrates its effectiveness and efficiency compared with both two-stage and
one-stage methods. Notably, explicit box detection boosts the pose estimation
performance by 4.5 AP on COCO and 9.9 AP on CrowdPose. For the first time, as a
fully end-to-end framework with a L1 regression loss, ED-Pose surpasses
heatmap-based Top-down methods under the same backbone by 1.2 AP on COCO and
achieves the state-of-the-art with 76.6 AP on CrowdPose without bells and
whistles. Code is available at https://github.com/IDEA-Research/ED-Pose.
- Abstract(参考訳): 本稿では,人間レベル(グローバル)とキーポイントレベル(ローカル)の情報間の文脈学習を統一する,ED-Poseと呼ばれる多人数ポス推定のための明示的ボックス検出によるエンドツーエンドフレームワークを提案する。
ed-poseはこのタスクを、統一表現と回帰監督を備えた2つの明示的なボックス検出プロセスとして再検討している。
まず,グローバル特徴を抽出するために,符号化トークンからの人間検出デコーダを導入する。
後者のキーポイント検出の優れた初期化を提供し、トレーニングプロセスの収束を早めることができる。
次に,キーポイント近傍に文脈情報を導入するために,ポーズ推定をキーポイントボックス検出問題として捉え,各キーポイントのボックス位置と内容の両方を学習する。
ヒューマン・ツー・キーポイント検出デコーダは、人間とキーポイントの機能間のインタラクティブな学習戦略を採用し、グローバルとローカルの機能集約をさらに強化する。
一般に、ED-Poseは後処理や密集したヒートマップの監視なしに概念的にシンプルである。
2段法と1段法に比較して,有効性と効率性を示す。
特に、明示的なボックス検出により、COCOでは4.5 AP、CrowdPoseでは9.9 APのポーズ推定性能が向上する。
L1レグレッションロスの完全なエンドツーエンドフレームワークとして、ED-Poseは、同じバックボーン下のヒートマップベースのトップダウンメソッドをCOCOの1.2 APで上回り、ベルやホイッスルなしでCrowdPoseの76.6 APで最先端を達成する。
コードはhttps://github.com/IDEA-Research/ED-Poseで入手できる。
関連論文リスト
- Disentangled Pre-training for Human-Object Interaction Detection [22.653500926559833]
本稿では,DP-HOI検出のための非交互事前学習法を提案する。
DP-HOIは、オブジェクト検出とアクション認識データセットを使用して、検出およびインタラクションデコーダ層を事前トレーニングする。
これは、様々な稀なカテゴリにおける既存のHOI検出モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-04-02T08:21:16Z) - Point2RBox: Combine Knowledge from Synthetic Visual Patterns for End-to-end Oriented Object Detection with Single Point Supervision [81.60564776995682]
我々は、ポイント教師付きオブジェクト検出のためのエンドツーエンドソリューションであるPoint2RBoxを提案する。
提案手法は軽量なパラダイムを用いているが,点教師付き代替品間での競合性能を実現する。
特に,本手法は軽量なパラダイムを用いるが,点教師付き代替品間での競合性能を実現する。
論文 参考訳(メタデータ) (2023-11-23T15:57:41Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - 6D Object Pose Estimation using Keypoints and Part Affinity Fields [24.126513851779936]
RGB画像からの6Dオブジェクトのポーズ推定のタスクは、自律型サービスロボットが現実世界と対話できるための重要な要件である。
既知物体の6自由度変換と配向を推定するための2段階パイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-05T14:41:19Z) - A Global to Local Double Embedding Method for Multi-person Pose
Estimation [10.05687757555923]
本稿では,人検出と関節検出を同時に行うことにより,パイプラインを簡素化する新しい手法を提案する。
マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。
MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。
論文 参考訳(メタデータ) (2021-02-15T03:13:38Z) - Structure-Consistent Weakly Supervised Salient Object Detection with
Local Saliency Coherence [14.79639149658596]
本論文では,スクリブルアノテーションによる弱監督オブジェクト検出のための1ラウンドのエンドツーエンドトレーニング手法を提案する。
6つのベンチマークで最新のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-12-08T12:49:40Z) - Point-Set Anchors for Object Detection, Instance Segmentation and Pose
Estimation [85.96410825961966]
中心点から抽出された画像の特徴は、離れたキーポイントや境界ボックスの境界を予測するための限られた情報を含んでいると論じる。
推論を容易にするために,より有利な位置に配置された点集合からの回帰を行うことを提案する。
我々は、オブジェクト検出、インスタンス分割、人間のポーズ推定にPoint-Set Anchorsと呼ばれるこのフレームワークを適用した。
論文 参考訳(メタデータ) (2020-07-06T15:59:56Z) - Detection in Crowded Scenes: One Proposal, Multiple Predictions [79.28850977968833]
混み合ったシーンにおける高過度なインスタンスを検出することを目的とした,提案手法によるオブジェクト検出手法を提案する。
このアプローチの鍵は、各提案が以前の提案ベースのフレームワークの1つではなく、関連したインスタンスのセットを予測できるようにすることです。
我々の検出器は、CrowdHumanデータセットの挑戦に対して4.9%のAPゲインを得ることができ、CityPersonsデータセットでは1.0%$textMR-2$の改善がある。
論文 参考訳(メタデータ) (2020-03-20T09:48:53Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z) - PPDM: Parallel Point Detection and Matching for Real-time Human-Object
Interaction Detection [85.75935399090379]
本稿では,Human-Object Interaction (HOI) の単一段階検出手法を提案する。
これは、初めてのリアルタイムHOI検出方法である。
論文 参考訳(メタデータ) (2019-12-30T12:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。