論文の概要: A Global to Local Double Embedding Method for Multi-person Pose
Estimation
- arxiv url: http://arxiv.org/abs/2102.07318v1
- Date: Mon, 15 Feb 2021 03:13:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:43:50.953879
- Title: A Global to Local Double Embedding Method for Multi-person Pose
Estimation
- Title(参考訳): 多人数ポーズ推定のためのグローバル・ローカル二重埋め込み法
- Authors: Yiming Xu, Jiaxin Li, Yiheng Peng, Yan Ding and Hua-Liang Wei
- Abstract要約: 本稿では,人検出と関節検出を同時に行うことにより,パイプラインを簡素化する新しい手法を提案する。
マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。
MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。
- 参考スコア(独自算出の注目度): 10.05687757555923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-person pose estimation is a fundamental and challenging problem to many
computer vision tasks. Most existing methods can be broadly categorized into
two classes: top-down and bottom-up methods. Both of the two types of methods
involve two stages, namely, person detection and joints detection.
Conventionally, the two stages are implemented separately without considering
their interactions between them, and this may inevitably cause some issue
intrinsically. In this paper, we present a novel method to simplify the
pipeline by implementing person detection and joints detection simultaneously.
We propose a Double Embedding (DE) method to complete the multi-person pose
estimation task in a global-to-local way. DE consists of Global Embedding (GE)
and Local Embedding (LE). GE encodes different person instances and processes
information covering the whole image and LE encodes the local limbs
information. GE functions for the person detection in top-down strategy while
LE connects the rest joints sequentially which functions for joint grouping and
information processing in A bottom-up strategy. Based on LE, we design the
Mutual Refine Machine (MRM) to reduce the prediction difficulty in complex
scenarios. MRM can effectively realize the information communicating between
keypoints and further improve the accuracy. We achieve the competitive results
on benchmarks MSCOCO, MPII and CrowdPose, demonstrating the effectiveness and
generalization ability of our method.
- Abstract(参考訳): マルチパーソンポーズ推定は多くのコンピュータビジョンタスクにおいて基本的で困難な問題である。
ほとんどの既存のメソッドは、トップダウンとボトムアップの2つのクラスに広く分類できます。
どちらの方法も、人の検出と関節の検出という2つの段階を含む。
伝統的に、2つの段階はそれらの相互作用を考慮せずに別々に実装され、必然的に本質的な問題を引き起こす可能性がある。
本稿では,人物検出と関節検出を同時に行うことにより,パイプラインを簡略化する新しい手法を提案する。
マルチパーソンポーズ推定タスクをグローバルからローカルに完了するダブルエンベディング(DE)手法を提案する。
DEはGlobal Embedding (GE)とLocal Embedding (LE)で構成されている。
GEは異なる人物インスタンスをエンコードし、画像全体をカバーする情報を処理し、LEは局所的な手足情報をエンコードする。
トップダウン戦略における人物検出のためのGE機能と、ボトムアップ戦略における共同グループ化および情報処理のための機能である残りの関節を順次接続するLE機能。
LEに基づいて,複雑なシナリオにおける予測困難を軽減するためにMRM(Multual Refine Machine)を設計する。
MRMは、キーポイント間の通信情報を効果的に実現し、精度をさらに向上することができる。
MSCOCO, MPII および CrowdPose のベンチマークを用いて,本手法の有効性と一般化能力を示す。
関連論文リスト
- Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation [24.973118696495977]
本稿では,ED-Poseと呼ばれる多人数のPose推定のためのExplicit box Detectionを用いたエンドツーエンドフレームワークを提案する。
ヒューマンレベル(グローバル)とキーポイントレベル(ローカル)情報のコンテキスト学習を統一する。
L1回帰損失の完全なエンドツーエンドフレームワークとして、ED-Poseは、同じバックボーンの下で、ヒートマップベースのトップダウンメソッドを初めて上回った。
論文 参考訳(メタデータ) (2023-02-03T08:18:34Z) - FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection [4.534713782093219]
上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-01-08T03:53:50Z) - Motor Imagery Decoding Using Ensemble Curriculum Learning and
Collaborative Training [11.157243900163376]
マルチオブジェクトEEGデータセットは、いくつかの種類のドメインシフトを示す。
これらの領域シフトは、堅牢なクロスオブジェクトの一般化を妨げる。
複数の特徴抽出器を組み込んだ2段階モデルアンサンブルアーキテクチャを提案する。
我々のモデルアンサンブルアプローチはカリキュラム学習と協調学習の力を組み合わせたものであることを実証する。
論文 参考訳(メタデータ) (2022-11-21T13:45:44Z) - Joint Multi-Person Body Detection and Orientation Estimation via One
Unified Embedding [24.96237908232171]
本論文では,HBOE問題に多人数で対処するための一段階のエンドツーエンドトレーニング可能なフレームワークを提案する。
本手法は,1つの埋め込みにボックスと方向角の予測を組み込むことで,すべての物体の位置と方向を1つの画像内に共同で推定することができる。
論文 参考訳(メタデータ) (2022-10-27T16:22:50Z) - DPIT: Dual-Pipeline Integrated Transformer for Human Pose Estimation [24.082220581799156]
ポーズ推定のための新しいDual-Pipeline Integrated Transformer (DPIT)を提案する。
DPITは2つのブランチで構成され、ボトムアップブランチは全体像を扱い、グローバルな視覚情報をキャプチャする。
ボトムアップとトップダウンの分岐から抽出した特徴表現をトランスフォーマーエンコーダに入力し、グローバルとローカルの知識を対話的に融合させる。
論文 参考訳(メタデータ) (2022-09-02T10:18:26Z) - Graph Convolutional Module for Temporal Action Localization in Videos [142.5947904572949]
アクション・ユニット間の関係は、アクション・ローカライゼーションにおいて重要な役割を果たすと主張する。
より強力なアクション検出器は、各アクションユニットの局所的な内容をキャプチャするだけでなく、関連するコンテキストに関する広い視野を許容するべきである。
本稿では,既存の動作ローカライズ手法に簡単にプラグイン可能な汎用グラフ畳み込みモジュール(GCM)を提案する。
論文 参考訳(メタデータ) (2021-12-01T06:36:59Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - DRG: Dual Relation Graph for Human-Object Interaction Detection [65.50707710054141]
人-物間相互作用(HOI)検出の課題に対処する。
既存の方法は、人間と物体の対の相互作用を独立に認識するか、複雑な外観に基づく共同推論を行う。
本稿では,抽象的空間意味表現を活用して,各対象対を記述し,二重関係グラフを用いてシーンの文脈情報を集約する。
論文 参考訳(メタデータ) (2020-08-26T17:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。