論文の概要、ライセンス

# (参考訳) マルチHypothesis Pose Networks: Rethinking Top-Down Pose Estimations [全文訳有]

Multi-Hypothesis Pose Networks: Rethinking Top-Down Pose Estimation ( http://arxiv.org/abs/2101.11223v1 )

ライセンス: CC BY 4.0
Rawal Khirodkar, Visesh Chari, Amit Agrawal, Ambrish Tyagi(参考訳) トップダウンの人間のポーズ推定アプローチの重要な仮定は、入力バウンディングボックスに一人の人がいるという期待です。 これはしばしば閉塞を伴う混み合ったシーンで失敗する。 この基本的な仮定の限界を克服するための新しいソリューションを提案します。 MHPNet(Multi-Hypothe sis Pose Network)は、特定のバウンディングボックス内で複数の2Dポーズを予測できます。 MHAB(Multi-Hypothesi s Attention Block)を導入して,各仮説に対するチャネルワイズな特徴応答を適応的に変調し,パラメータ効率を向上する。 提案手法の有効性を,COCO,CrowdPose,OCHu manデータセットを用いて評価した。 具体的には,crowdposeでは70.0 ap,ochuman testsetでは42.5 apを達成し,先行技術では2.4 apと6.5 apが有意に改善した。 推論に接地真理境界ボックスを使用する場合、MHPNetはCOCO0.7 AP、CrowdPose0.9 AP、OCHuman検証セット9.1 APをHRNetと比較して改善する。 興味深いことに、高信頼バウンディングボックスが少ない場合、HRNetのパフォーマンスはOCHumanで(5 APで)低下しますが、MHPNetは同じ入力に対して比較的安定したパフォーマンス(1 APの低下)を維持します。

A key assumption of top-down human pose estimation approaches is their expectation of having a single person present in the input bounding box. This often leads to failures in crowded scenes with occlusions. We propose a novel solution to overcome the limitations of this fundamental assumption. Our Multi-Hypothesis Pose Network (MHPNet) allows for predicting multiple 2D poses within a given bounding box. We introduce a Multi-Hypothesis Attention Block (MHAB) that can adaptively modulate channel-wise feature responses for each hypothesis and is parameter efficient. We demonstrate the efficacy of our approach by evaluating on COCO, CrowdPose, and OCHuman datasets. Specifically, we achieve 70.0 AP on CrowdPose and 42.5 AP on OCHuman test sets, a significant improvement of 2.4 AP and 6.5 AP over the prior art, respectively. When using ground truth bounding boxes for inference, MHPNet achieves an improvement of 0.7 AP on COCO, 0.9 AP on CrowdPose, and 9.1 AP on OCHuman validation sets compared to HRNet. Interestingly, when fewer, high confidence bounding boxes are used, HRNet's performance degrades (by 5 AP) on OCHuman, whereas MHPNet maintains a relatively stable performance (a drop of 1 AP) for the same inputs.
公開日: Wed, 27 Jan 2021 06:51:28 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
7 2 ] V C . 7 2 ] V C。 0.81
s c [ 1 v 3 2 2 1 1 sc [ 1 v 3 2 2 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
Multi-Hypothesis Pose Networks: Rethinking Top-Down Pose Estimation マルチHypothesis Pose Networks: Rethinking Top-Down Pose Estimations 0.87
Rawal Khirodkar1* Rawal Khirodkar1* 0.94
Visesh Chari2 Visesh Chari2 0.88
Amit Agrawal2 Amit Agrawal2 0.88
Ambrish Tyagi2 アンブリックtyagi2 0.43
{viseshc, aaagrawa, ambrisht}@amazon.com viseshc, aaagrawa, ambrisht}@amazon.com 0.84
1Carnegie Mellon University 1カーネギーメロン大学 0.61
2Amazon Lab 126 2Amazon Lab 126 0.94
rkhirodk@cs.cmu.edu rkhirodk@cs.cmu.edu 0.59
Abstract A key assumption of top-down human pose estimation approaches is their expectation of having a single person present in the input bounding box. 概要 トップダウンの人間のポーズ推定アプローチの重要な仮定は、入力バウンディングボックスに一人の人がいるという期待です。 0.57
This often leads to failures in crowded scenes with occlusions. これはしばしば閉塞を伴う混み合ったシーンで失敗する。 0.73
We propose a novel solution to overcome the limitations of this fundamental assumption. この基本的な仮定の限界を克服するための新しいソリューションを提案します。 0.69
Our Multi-Hypothesis Pose Network (MHPNet) allows for predicting multiple 2D poses within a given bounding box. MHPNet(Multi-Hypothe sis Pose Network)は、特定のバウンディングボックス内で複数の2Dポーズを予測できます。 0.67
We introduce a Multi-Hypothesis Attention Block (MHAB) that can adaptively modulate channel-wise feature responses for each hypothesis and is parameter efficient. MHAB(Multi-Hypothesi s Attention Block)を導入して,各仮説に対するチャネルワイズな特徴応答を適応的に変調し,パラメータ効率を向上する。 0.67
We demonstrate the efficacy of our approach by evaluating on COCO, CrowdPose and OCHuman datasets. 提案手法の有効性を,COCO,CrowdPose,OCHu manのデータセットを用いて評価した。 0.62
Specifically, we achieve 70.0 AP on CrowdPose and 42.5 AP on OCHuman test sets, a significant improvement of 2.4 AP and 6.5 AP over prior art, respectively. 具体的には,crowdposeでは70.0 ap,ochuman testsetでは42.5 apを達成し,先行技術では2.4 apと6.5 apが有意に改善した。 0.66
When using ground truth bounding boxes for inference, MHPNet achieves an improvement of 0.7 AP on COCO, 0.9 AP on CrowdPose, and 9.1 AP on OCHuman validation sets compared to HRNet. 推論に接地真理境界ボックスを使用する場合、MHPNetはCOCO0.7 AP、CrowdPose0.9 AP、OCHuman検証セット9.1 APをHRNetと比較して改善する。 0.80
Interestingly, when fewer, high confidence bounding boxes are used, HRNet’s performance degrades (by 5 AP) on OCHuman, whereas MHPNet maintains a relatively stable performance (drop of 1 AP) for the same inputs. 興味深いことに、高信頼性バウンディングボックスがより少ない場合、HRNetのパフォーマンスはOCHumanで(5 APで)低下しますが、MHPNetは同じ入力に対して比較的安定したパフォーマンス(1 APのドロップ)を維持します。 0.73
1. Introduction Human pose estimation aims at localizing 2D human anatomical keypoints (e.g., elbow, wrist, etc.) 1. はじめに ヒトポーズ推定は、2Dヒト解剖学的キーポイント(例えば肘、手首など)の局在化を目的とする。 0.70
in a given image. 与えられたイメージで 0.62
Current human pose estimation methods can be categorized as top-down or bottom-up methods. 現在の人間のポーズ推定方法は、トップダウンまたはボトムアップの方法に分類される。 0.56
Top-down methods [5, 11, 30, 36, 37, 38, 39] take as input an image region within a bounding box, generally the output of a human detector, and reduce the problem to the simpler task of single human pose estimation. トップダウン手法[5, 11, 30, 36, 37, 38, 39]は、境界ボックス内の画像領域、一般に人間の検出器の出力を入力として取り、問題を単一の人間のポーズ推定の単純なタスクに減少させる。 0.78
Bottom-up methods [3, 19, 27, 29], in contrast, start by independently localizing keypoints in the entire image, followed by grouping them into 2D human pose instances. 対照的にボトムアップの方法[3,19,27,29]は、画像全体のキーポイントを独立にローカライズし、次にそれらを2dの人間のポーズインスタンスにグループ化する。 0.72
*Work done during an internship at Amazon Lab 126 ※Amazon Lab 126でのインターンシップ期間中に実施。 0.77
Figure 1: 2D pose estimation networks often fail in presence of heavy occlusion. 図1:2Dポーズ推定ネットワークは、しばしば重い閉塞の存在下で失敗します。 0.65
(Left) Bounding boxes corresponding to two persons. (左)2人対応のバウンディングボックス。 0.62
(Middle) For both bounding boxes, HRNet predicts the pose for the front person and misses the occluded person. (ミドル)両境界箱に対して、HRNetは前者のポーズを予測し、隠された人を見逃す。 0.57
(Right) MHPNet allows multiple hypotheses for each bounding box and recovers the pose of the occluded person. (右) MHPNetは、各バウンディングボックスの複数の仮説を可能にし、被収容者のポーズを回復します。 0.56
The single human assumption made by top-down approaches limits the inference to a single configuration of human joints that can best explain the input. トップダウンアプローチによる単一の人間の仮定は、入力を最もよく説明できる人間の関節の単一の構成に限定する。 0.74
Top-down pose estimation approaches [5, 13, 28, 36, 39] are currently the best performers on datasets such as COCO [22]. トップダウンポーズ推定アプローチ(5,13,28,36,39)は現在,COCO[22]などのデータセット上で最高のパフォーマーです。 0.69
However, when presented with inputs containing multiple humans like crowded or occluded instances, top-down methods are forced to select a single plausible configuration per human detection. しかし、混雑したインスタンスや占有されたインスタンスのような複数の人間を含む入力が提示されると、トップダウンメソッドは人間の検出ごとに1つの可能な構成を選択することを余儀なくされる。 0.49
In such cases, top-down methods may erroneously identify pose landmarks corresponding to the occluder (person in the front). この場合、トップダウン方式は誤ってオクルダー(正面の人物)に対応するポーズのランドマークを識別することができる。 0.56
See, for example, Fig. 例えば、図を見てください。 0.76
1 (Middle). Therefore, on datasets such as CrowdPose [20] and OCHuman [43], which 1(中間)。 したがって、CrowdPose [20] や OCHuman [43] のようなデータセットについて 0.76
1 1 0.85
英語(論文から抽出)日本語訳スコア
Dataset COCO CrowdPose OCHuman Dataset COCO CrowdPose OCHuman 0.85
IoU> 0.5 1.2K (1%) 2.9K (15%) 3.2K (68%) IoU> 0.5 1.2K (1%) 2.9K (15%) 3.2K (68%) 0.75
∆AP0 ∆AP0.9 ∆APgt +0.7 +0.9 +9.1 アプグット +0.7 +0.9 +9.1 である。 0.36
+1.9 +2.3 +8.2 +1.9 +2.3 +8.2 0.36
0.0 +0.8 +4.2 0.0 +0.8 +4.2 0.39
Figure 2: Heatmap predictions for a few keypoints from HRNet vs MHPNet. 図2: HRNetとMHPNetのいくつかのキーポイントのヒートマップ予測。 0.76
HRNet outputs a single pose prediction and focuses on the foreground person. HRNetは単一のポーズ予測を出力し、前景の人物に焦点を当てる。 0.64
MHPNet enables prediction of the multiple hypotheses from the same input bounding box by varying λ during inference. mhpnetは推論中にλを変化させることで、同じ入力境界ボックスから複数の仮説を予測することができる。 0.59
have a relatively higher proportion of occluded instances (Table 1), the performance of top-down methods suffer due to the single person assumption [7, 20, 43]. occludedインスタンスの割合が比較的高い場合(表1)、トップダウンメソッドのパフォーマンスは、1人の仮定 [7, 20, 43] によって低下する。 0.71
In this paper, we rethink the architecture for top-down 2D pose estimators by allowing for multiple pose hypotheses for the input bounding box. 本稿では,入力バウンディングボックスに対する複数のポーズ仮説を許容することにより,トップダウン2次元ポーズ推定器のアーキテクチャを再考する。 0.72
The key idea of our proposed MultiHypothesis Pose Network (MHPNet) architecture is to allow the model to predict more than one pose instance for each bounding box. 提案されたMultiHypothesis Pose Network(MHPNet)アーキテクチャの重要なアイデアは、モデルが各バウンディングボックスごとに複数のポーズインスタンスを予測できるようにすることです。 0.78
We demonstrate that this conceptual change improves the performance of top-down methods, especially for instances with crowding and heavy occlusion. この概念的変化は,特に群集や重閉塞の事例において,トップダウン手法の性能を向上させることを実証する。 0.69
A na¨ıve approach to predict multiple poses per bounding box would be to add multiple prediction heads to an existing top-down network with a shared feature-extraction backbone. バウンディングボックスごとに複数のポーズを予測するためのna sıveアプローチは、共有機能抽出バックボーンを持つ既存のトップダウンネットワークに複数の予測ヘッドを追加することです。 0.67
However, such an approach fails to learn different features corresponding to the various hypotheses. しかし、そのようなアプローチは様々な仮説に対応する異なる特徴を学習することができない。 0.66
A brute-force approach would then be to replicate the feature-extraction backbone, though at a cost of an N-fold increase in parameters, for N hypotheses. 残酷な力のアプローチは、N の仮説に対して、パラメータの N 倍増加のコストで、特徴抽出バックボーンを複製することである。 0.71
In contrast, our approach enables predicting multiple hypotheses for any existing top-down architecture with a small increase in the number of parameters (< 3%), independent of N. 対照的に,本手法では,N に依存しないパラメータ数 (< 3%) の少ない既存のトップダウンアーキテクチャに対して,複数の仮説を予測できる。 0.82
To enable efficient training and inference of multiple pose hypotheses in a given bounding box, we propose a novel Multi-Hypothesis Attention Block (MHAB). 与えられたバウンディングボックスにおける複数のポーズ仮説の効率的なトレーニングと推論を可能にするために,新しいマルチハイポテシス注意ブロック(MHAB)を提案する。 0.71
MHAB modulates the feature tensors based on a scalar parameter, λ, and allows MHPNet to index on one of the N hypotheses (Fig. MHAB はスカラーパラメータ λ に基づいて特徴テンソルを変調し、MHPNet が N の仮説の 1 つをインデックスできる(図)。 0.69
2). MHAB can be incorporated in any existing featureextraction backbone, with a relatively simple (< 15 lines) code change (see supplementary materials). 2). MHABは既存の機能拡張バックボーンに組み込むことができ、比較的単純な(< 15行)コード変更(補足資料参照)がある。 0.80
At inference, for a given bounding box, we vary λ to generate different pose predictions (Fig. 推論において、与えられた境界ボックスに対して、異なるポーズ予測を生成するために λ が異なる(図)。 0.63
3). Since top-down approaches rely on the output from an object detector, they typically process a large number of bounding box hypotheses. 3). トップダウンアプローチはオブジェクト検出器からの出力に依存するため、通常は多数の境界ボックス仮説を処理する。 0.82
For example, HRNet [36] uses more than 100K bounding boxes from Faster R-CNN [34] to predict 2D pose for ∼ 6000 persons in the COCO val dataset. 例えば、HRNet [36]は、高速R-CNN [34]の100Kバウンディングボックスを使用して、2DポーズをCOCO valデータセットで6000人に予測します。 0.69
Many of these bounding boxes overlap and majority have low detection scores (< 0.4). これらのバウンディングボックスの多くは重なり合い、大多数は検出スコアが低く(<0.4)。 0.65
This also adversely impacts the inference time, which increases linearly with これはまた、線形に増加する推論時間にも悪影響を及ぼす。 0.66
Table 1: MHPNet’s relative improvement in AP compared to HRNet-W48 on the val set, using Faster R-CNN (AP0: all, AP0.9: high confidence) and ground truth (APgt) bounding boxes. 表1: MHPNetの相対的なAP改善は、valセットのHRNet-W48と比較して、より高速なR-CNN(AP0: all, AP0.9: high confidence)と基底真理(APgt)バウンディングボックスを使用する。
訳抜け防止モード: 表1 : MHPNet の HRNet - W48 に対する AP の相対的な改善 Faster R - CNN (AP0 : all, AP0.9 : high confidence )の使用 and ground truth (APgt ) bounding box .
0.84
For each dataset, the number (%) of instances with occlusion IoU > 0.5 is reported [32]. 各データセットについて、閉塞IoU > 0.5のインスタンス数(%)を報告する[32]。 0.73
Datasets with more occlusions and crowding demonstrate higher gains. より多くの閉塞と群集を持つデータセットは、より高い利益を示しています。 0.43
the number of input bounding boxes. 入力バウンディングボックスの数。 0.57
As shown in Fig. 4, using fewer, high confidence bounding boxes degrades the performance of HRNet from 37.8 to 32.8 AP on OCHuman, a degradation of 5 AP in performance. 図に示すように。 HRNetの性能はOCHumanで37.8 APから32.8 APに低下し、性能は5 APに低下した。
訳抜け防止モード: 図に示すように。 より少ない高信頼バウンディングボックスを使用することで、OCHuman上でのHRNetのパフォーマンスは37.8から32.8 APに低下する。 性能5APの低下。
0.72
In contrast, MHPNet is robust and maintains a relatively stable performance for the same inputs (drop of 1 AP). 対照的に、MHPNetは堅牢であり、同じ入力(1 APのドロップ)に対して比較的安定したパフォーマンスを維持します。 0.65
Intuitively, our method can predict the 2D pose corresponding to a mis-detected bounding box based on predictions from its neighbors. 直感的には,隣人からの予測に基づいて,誤検出境界ボックスに対応する2次元ポーズを予測できる。 0.63
Overall, MHPNet outperforms top-down methods (e.g. 全体としては、MHPNetはトップダウンメソッド(例えば)より優れている。 0.47
HRNet, SimpleBaseline [39]) on various datasets as shown in Table 1. 表1に示すように、さまざまなデータセット上のHRNet、SimpleBaseline [39])。 0.82
For challenging datasets such as CrowdPose and OCHuman, containing a larger proportion of cluttered scenes (with multiple overlapping people), MHPNet sets a new stateof-the-art achieving 70.0 AP and 42.5 AP respectively on the test set outperforming bottom-up methods. CrowdPose や OCHuman といった難易度の高いデータセットに対しては、MHPNet は、ボトムアップメソッドよりもパフォーマンスの高いテストセットでそれぞれ 70.0 AP と 42.5 AP を達成した最新の状態を設定します。 0.67
Our main contributions are • We advance top-down 2D pose estimation methods by addressing limitations caused by the single person assumption during training and inference. 私たちの主な貢献は •トレーニングや推論において、一人ひとりの仮定による制限に対処し、トップダウンの2Dポーズ推定手法を推進します。 0.69
Our approach achieves the state-of-the-art results on CrowdPose and OCHuman datasets. われわれのアプローチは、CrowdPoseおよびOCHumanデータセットの最先端結果を実現する。 0.54
• MHPNet allows predicting multiple hypotheses for a given bounding box efficiently by introducing a novel attention mechanism, MHAB. • MHPNetは、新しいアテンション機構であるMHABを導入することにより、与えられたバウンディングボックスの複数の仮説を効率的に予測できる。 0.54
MHAB can modulate feature responses in a network for each hypothesis independently. MHABは、各仮説のネットワーク内の特徴応答を独立して変調することができる。 0.61
• The ability to predict multiple hypotheses makes MHPNet resilient to bounding box confidence and allows it to deal with missing bounding boxes with minimal impact on performance. • 複数の仮説を予測する能力により、MHPNetはバウンディングボックスの信頼性に耐性を持ち、パフォーマンスに最小限の影響を伴わないバウンディングボックスに対処できる。 0.73
2. Related Work Biased benchmarks: Most human pose estimation benchmarks [1, 2, 10, 17, 22] do not uniformly represent possible poses and occlusions in the real world. 2. 関連作品 バイアスドベンチマーク: ほとんどの人間のポーズ推定ベンチマーク [1, 2, 10, 17, 22] は、現実世界の可能なポーズと閉塞を均一に表現していません。 0.72
Popular datasets such as COCO [22] and MPII [2] have less than 3% annotations with crowding at IoU of 0.3 [32]. COCO [22] や MPII [2] のような一般的なデータセットは 3% 未満のアノテーションを持ち、IoU では 0.3 [32] である。 0.68
More than 86% of annotations in COCO [22] have 5 or more keypoints COCO[22]のアノテーションの86%以上が5つ以上のキーポイントを持っている 0.75
英語(論文から抽出)日本語訳スコア
Figure 3: (Left) MHPNet is trained to predict the ith hypothesis from an input x by conditioning the network using λ = i, ∀ i = 0, . 図3: (Left) MHPNet は λ = i, > i = 0, を用いてネットワークを条件付けることにより入力 x から i 番目の仮説を予測するように訓練される。 0.74
. . , N − 1. . . N − 1 である。 0.84
(Middle) During inference, we obtain the N pose predictions by varying λ. (中)推論中、λを変化させてNポーズ予測を得る。 0.69
(Right) MHAB uses squeeze, excitation and attention modules that enables λ to modulate the feature responses for each hypothesis. (Right) MHABは、絞り、励起、および注意モジュールを使用して、λが各仮説の機能応答を変調できるようにします。 0.68
visible [35]. These biases have seeped into our state-of-theart data driven deep learning models [40], not only in the form of poor generalization to “in-the-tail” data but surprisingly in critical design decisions for network architectures. 見える[35]. これらのバイアスは、最先端のデータ駆動型ディープラーニングモデル [40] に浸透しており、"テール内"データへの貧弱な一般化という形だけでなく、ネットワークアーキテクチャにとって驚くほど重要な設計決定にも当てはまります。 0.60
Recently, challenging datasets such as OCHuman [43] and CrowdPose [20] containing heavy occlusion and crowding have been proposed to capture these biases. 近年,OCHuman [43] やCrowdPose [20] のような重閉塞や群集を含む挑戦的なデータセットが,これらのバイアスを捉えるために提案されている。 0.67
These datasets demonstrate the failures of the state-of-art models under severe occlusions (Section 4.3). これらのデータセットは、厳密な閉塞下での最先端モデルの失敗を示す(Section 4.3)。 0.56
Our approach shows a significant improvement in performance under such challenging conditions. 提案手法は,このような困難な条件下で性能が著しく向上することを示す。 0.55
Top-down methods: Top-down methods [5, 9, 11, 13, 28, 30, 36, 39] detect the keypoints of a single person within a bounding box. トップダウンメソッド:トップダウンメソッド[5, 9, 11, 13, 28, 30, 36, 39]は、バウンディングボックス内の1人のキーポイントを検出します。 0.79
These bounding boxes are usually generated by an object detector [6, 21, 23, 33, 34]. これらのバウンディングボックスは通常、オブジェクト検出器[6, 21, 23, 33, 34]によって生成される。 0.79
As top-down methods can normalize all the persons to approximately the same scale by cropping and resizing the detected bounding boxes, they are generally less sensitive to scale variations in images. トップダウン方式は、検出された境界ボックスを絞って再サイズすることで、すべての人をほぼ同じ規模に正規化することができるため、一般的に画像のスケール変化に対する感度が低下する。 0.60
Thus, state-of-the-art performances on various human pose estimation benchmarks are mostly achieved by top-down methods [36]. このように、様々な人間のポーズ推定ベンチマークにおける最先端のパフォーマンスは、トップダウン手法[36]によって達成される。 0.50
However, these methods inherently assume a single person in the detection window and often fail under occlusions. しかし、これらの方法は本質的に検出ウィンドウ内の一人の人物を仮定し、しばしば閉塞の下で失敗します。 0.55
Since top-down methods are gated by person detection, these methods fail to recover an instance if it is missing in detection results. トップダウンメソッドは人検出によってゲートされるため、検出結果に欠けている場合、これらのメソッドはインスタンスの復元に失敗する。 0.65
Since our approach allows multiple hypothesis for each detection, it could recover some of these instances if they are present within the bounding box of a different person, even-though such instances themselves may be missing from bounding box detection. 提案手法は各検出に対して複数の仮説を許容するので,異なる人物の境界ボックス内に存在すれば,これらのインスタンスのいくつかを復元することができる。 0.68
Bottom-up methods: Bottom-up methods [3, 7, 14, 15, 27, 31] detect identity-free instance agnostic body joints for all the persons in an image and then group them into full-body keypoints. ボトムアップメソッド:ボトムアップメソッド [3, 7, 14, 15, 27, 31] イメージ内のすべての人のアイデンティティフリーインスタンス非依存のボディジョイントを検出し、それらをフルボディキーポイントにグループ化する。 0.69
This enables bottom-up methods to be faster and more capable of achieving real-time pose estimation. これによりボトムアップメソッドはより高速で、リアルタイムのポーズ推定を実現できる。 0.60
However, the grouping methods often employ various heuristics and require hyper-parameter tuning. しかし、グルーピング法はしばしば様々なヒューリスティックを用い、ハイパーパラメータチューニングを必要とする。 0.48
Furthermore, due to identity-free detection, bottom-up methods are robust to occlusion [7, 43] and better capable in handling complex posses. さらに アイデンティティを含まない検出のため、ボトムアップメソッドは、[7, 43]の閉塞に対して堅牢で、複雑なポースを扱う能力が優れている。
訳抜け防止モード: さらに アイデンティティ、自由検出、ボトムアップメソッドは、閉塞に対して堅牢である[7, 43 ] 複雑なポースを扱う能力も向上しました
0.52
However, because bottom-up methods need to deal with scale variation, they perform poorly on small scale persons in comparison to top-down methods [7, 36]. しかし,ボトムアップ方式はスケールのばらつきに対処する必要があるため,トップダウン方式(7,36)に比べ,小規模者ではパフォーマンスが低かった。 0.74
Multi-Hypothesis Learning: In machine learning, many models have been trained to behave differently depending on a conditional input [4, 8, 18, 24, 25, 41]. マルチ仮説学習:機械学習では、条件付き入力 [4, 8, 18, 24, 25, 41] に応じて、多くのモデルが異なる動作を訓練されている。 0.81
In multi-task networks, separate models with different weighing of loss terms are often trained to obtain multiple solutions. マルチタスクネットワークでは、損失項の異なる計量を持つ別々のモデルは、しばしば複数のソリューションを得るために訓練されます。 0.67
Instead of training multiple models, our approach enables training a single network for predicting multiple hypothesis on the same input. 複数のモデルをトレーニングする代わりに、同じ入力で複数の仮説を予測するための単一のネットワークをトレーニングすることが可能である。 0.65
Instead of duplicating the feature backbone, our novel MHAB block leads to a parameter efficient design. 機能バックボーンを複製する代わりに、新しいmhabブロックはパラメーター効率の良い設計につながります。 0.68
3. Method Human pose estimation aims to detect the locations of K keypoints from an input image x ∈ RH×W×3. 3. 方法 ヒトポーズ推定は、入力画像x ∈ RH×W×3からKキーポイントの位置を検出することを目的とする。
訳抜け防止モード: 3. 方法 人間のポーズ推定の目的は 入力画像 x ∈ RH×W×3 から K キーポイントの位置を検出する。
0.82
Most top-down methods transform this problem to estimating K heatmaps, where each heatmap indicates the probability of the corresponding keypoint at any spatial location. ほとんどのトップダウン法はこの問題をkヒートマップに変換し、各ヒートマップは任意の空間的位置における対応するキーポイントの確率を示す。 0.62
Similar to [5, 28, 39] we define a convolutional pose estimator, P , for human keypoint detection. 5, 28, 39]と同様に、人間のキーポイント検出のための畳み込みポーズ推定器 P を定義する。 0.78
The bounding box at training and inference is scaled to H×W and is provided as an input to P . 訓練および推論の境界箱はH×Wにスケールされ、Pへの入力として提供されます。 0.75
Let y ∈ RH(cid:48)×W (cid:48)×K denote the K heatmaps corresponding to the ground truth keypoints for a given input x. y ∈ RH(cid:48)×W(cid:48)×K を与えられた入力 x の基底真理キーポイントに対応する K のヒートマップで表す。 0.80
The pose estimator transforms input x to a single set of predicted heatmaps, ˆy ∈ RH(cid:48)×W (cid:48)×K, such that ˆy = P (x). ポーズ推定器は入力 x を予測された熱マップの1つの集合 y ∈ RH(cid:48)×W (cid:48)×K に変換し、 y = P (x) となる。 0.73
P is trained to minimize the mean squared loss L = MSE(y, ˆy). P は平均二乗損失 L = MSE(y, y) を最小化するように訓練される。 0.77
3.1. Multi-Hypothesis Learning 3.1. マルチハイポテーシス学習 0.70
We propose to modify the top-down pose estimator P to predict multiple hypotheses as follows. トップダウンポーズ推定器Pを修正し、複数の仮説を次のように予測することを提案する。 0.58
Our pose estimator P predicts N hypotheses, ˆy0, . 我々のポーズ推定器 P は N の仮説を予測している。 0.61
. . , ˆyN−1 for input x. . . は、入力 x の syN−1 である。 0.75
This is achieved by conditioning the network P on a scalar λ, 0 ≤ λ ≤ N − 1. これは、ネットワーク P をスカラー λ, 0 ≤ λ ≤ N − 1 に条件付けすることで達成される。 0.84
P accepts both x and λ as input and P は x と λ の両方を入力として受け入れる。 0.68
英語(論文から抽出)日本語訳スコア
predicts ˆyi = P (x, λ = i), where i ∈ {0, 1, . i ∈ {0, 1, .yi = P (x, λ = i) を予想する。 0.79
. . , N − 1}. . . N − 1} である。 0.84
Let B0 denote the ground truth bounding box used to crop the input x. b0 を入力 x を収穫するのに使われる基底真理境界ボックスとする。 0.77
Let Bi, i ∈ {1, ..n − 1}, denote additional n − 1 ground truth bounding boxes which overlap B0, such that at least k = 3 keypoints from Bi fall within B0. Bi, i ∈ {1, .n − 1} は、B0 と重なる n − 1 個の基底真理境界ボックスを表し、Bi から少なくとも k = 3 個のキーポイントが B0 内に収まる。 0.90
Thus, B0, . . したがって、B0。 . 0.84
. , Bn−1 represents the bounding boxes for n ground truth pose instances present in x. . , Bn−1 は x に存在する n 基底真理ポーズインスタンスのバウンディングボックスを表す。 0.82
We denote the ground truth heatmaps corresponding to these n instances by y0, . 我々はこれらの n 個のインスタンスに対応する基底真理熱写像を y0, . で表す。 0.52
. . yn−1. To define a loss, we need to assign the predicted pose hypotheses to the ground truth heatmaps. . . yn−1。 損失を定義するには、予測されたポーズ仮説を地上の真理熱マップに割り当てる必要がある。 0.76
The primary hypothesis ˆy0 = P (x, λ = 0) is assigned to y0, the pose instance corresponding to B0. 一次仮説 y0 = P (x, λ = 0) は、B0 に対応するポーズインスタンス y0 に割り当てられる。 0.80
The next n − 1 hypotheses are assigned to the remaining ground truth heatmaps ordered according to the distance of their corresponding bounding box from B0. 次の n − 1 の仮説は、b0 から対応する境界ボックスの距離に応じて順序付けられた残りの基底真理ヒートマップに割り当てられる。 0.78
We train the network P to minimize the loss L = 1 ネットワーク p を訓練して l = 1 の損失を最小限に抑える 0.75
(cid:80)N−1 (cid:40) i=0 Li, where, (cid:80)N−1 (cid:40) i=0 Li, where, 0.73
∀ 0 ≤ i < n, MSE(yi, P (x, λ = i)), MSE(y0, P (x, λ = i)), ∀ n ≤ i < N. y0 ≤ i < n, MSE(yi, P (x, λ = i)), MSE(y0, P (x, λ = i)), sh n ≤ i < N) である。 0.81
N Li = (1) Equation 1 uses n hypotheses to compute the loss with respect to the n ground truth pose instances, y0, . N 李= (1) 方程式 1 は n の仮説を使用して、n の接地真理ポーズインスタンス y0, . に対する損失を計算する。 0.75
. . , yn−1. . . , yn−1。 0.81
It also computes the loss for the residual N − n hypotheses using y0. また y0 を用いて残存 N − n 仮説の損失を計算する。 0.82
For example, when n = 1 and N = 2, both the predictions are encouraged to predict the heatmaps corresponding to the single ground truth instance present in x. 例えば、n = 1 と N = 2 のとき、どちらの予測も x に存在する単基底真理のインスタンスに対応する熱マップを予測することを奨励する。 0.72
In our experience, employing other heuristics such as not propagating the loss, i.e., don’t care for residual hypotheses resulted in less stable training. 私たちの経験では、損失を伝播しない、つまり残留仮説を気にしないといった他のヒューリスティックな手法を採用すると、安定したトレーニングは少なくなる。 0.58
Additionally, a don’t care based training scheme for residual hypotheses resulted in significantly higher false positives, especially as we do not know the number of valid person instances per input at runtime. さらに、残留仮説に対するドナーベースのトレーニングスキームは、特に実行時に入力毎の有効な個人インスタンスの数を知ることができないため、非常に偽陽性が増加した。 0.66
During inference, we vary λ to extract different pose predictions from the same input x as shown in Fig. 推論中は、図に示すように同じ入力xから異なるポーズ予測を抽出するためにλを変化させる。 0.69
3. 3.2. Multi-Hypothesis Attention Block 3. 3.2. Multi-Hypothesis Attention Block 0.78
In this section, we describe our Multi-hypothesis Attention Block (MHAB) that can be easily introduced in any existing feature extraction backbone used for human pose estimation. 本稿では,人間のポーズ推定に使用される既存の特徴抽出バックボーンに容易に導入可能なマルチハイポテーシス注意ブロック(MHAB)について述べる。 0.80
MHAB allows top-down pose estimator P to accept both x and λ as inputs and builds upon the squeeze excitation block of [12]. mhab はトップダウンポーズ推定子 p を入力として x と λ の両方を受け付け、[12] のスクイーズ励起ブロックの上に構築することができる。 0.60
Let X ∈ RP×Q×C be an intermediate feature map with C channels, such that X = [x1, x2, . X ∈ RP×Q×C を C チャネルを持つ中間特徴写像とし、X = [x1, x2, .] とする。 0.86
. . , xC]. We introduce attention through λ by modulating the channel wise activations of the output of the excitation block as shown in Fig. . . 、xC]。 図に示すように、励起ブロックの出力のチャネルワイズアクティベーションを変調することにより、λを通して注意を喚起します。 0.75
3 (Right). The key insight of our design is that we can use the same set of convolutional filters to dynamically attend to different hypotheses corresponding to the multiple pose instances in the input. 3(右)。 私たちの設計の重要な洞察は、同じ畳み込みフィルタセットを使って、入力中の複数のポーズインスタンスに対応する異なる仮説に動的に対応できるということです。 0.75
Compared to a brute force approach of replicating the feature backbone or assigning a fixed number of channels per hypothesis, our design is parameter efficient. 特徴のバックボーンを複製したり、仮説毎に一定の数のチャネルを割り当てるブルートフォースアプローチと比較して、我々の設計はパラメータ効率が良い。 0.71
MHAB allows for channel-wise information exchange through the MHABはチャネルワイド情報交換を可能にする 0.81
squeeze and excitation process inherent in the block. スクイーズと励起のプロセスはブロック内にある。 0.70
Combining squeeze and excitation modules with dynamic attention enables multiplexing the feature representation corresponding to multiple hypotheses within a fixed-dimensional feature representation. スクイーズと励磁モジュールと動的注意を組み合わせることで、固定次元の特徴表現内の複数の仮説に対応する特徴表現を多重化することができる。 0.67
Let Fsq, Fex, Fatn denote the squeeze, excite, and attend operations, respectively, within MHAB. Fsq, Fex, Fatn はそれぞれ MHAB 内での絞り、興奮、および出席の操作を表します。 0.73
We represent λ as the one hot representation of scalar λ. λ をスカラー λ の1つのホット表現として表現する。 0.69
The feature map X is transformed to X(cid:48) = [x(cid:48) 特徴写像 X は X(cid:48) = [x(cid:48) に変換される 0.80
C] as follows, 1, x(cid:48) C] 以下の通り。 1, x(cid:48) 0.86
2, . . . , x(cid:48) 2, . . . x(cid:48) 0.86
sc = Fsq(xc), e = Fex(s), a = Fatn(λ), c = (ac × ec)xc, x(cid:48) sc = Fsq(xc), e = Fex(s), a = Fatn(λ), c = (ac × ec)xc, x(cid:48) 0.85
(2) (3) (4) (5) (2) (3) (4) (5) 0.85
s.t. s = [s1, . s.t. s = [s1, 。 0.79
. . , sC], a = [a1, . . . , sC], a = [a1, 。 0.82
. . , aC] and e = [e1, . . . , ac] と e = [e1, . 0.84
. . , eC]. Fsq squeezes the global spatial information into a channel descriptor using global average pooling. . . とeC。 fsqはグローバル平均プーリングを用いて、グローバル空間情報をチャネルディスクリプタに圧縮する。 0.76
Fex allows modeling for channel-wise interactions on the output of Fsq. Fex は Fsq の出力に対するチャネルワイズインタラクションのモデリングを可能にする。 0.71
Fex is implemented as a two layer, fully-connected, neural network. fexは2層、完全接続されたニューラルネットワークとして実装されている。 0.54
Following the output of the excite block, we modulate the channel-wise activations based on the output of another simple neural network Fatn that takes λ as an input. 励起ブロックの出力に続いて、λを入力として取り込む別の単純なニューラルネットワークFatnの出力に基づいてチャネル回りのアクティベーションを調整します。 0.77
Fatn has a similar design to Fex. FatnはFexと同じデザインです。 0.72
Please refer to the supplementary material for details. 詳しくは補足資料をご覧ください。 0.49
Figure 2 visualizes the predicted heatmaps from HRNet and MHPNet (using N = 2). 図2はHRNetとMHPNet(N = 2)から予測されたヒートマップを視覚化します。 0.60
Note that HRNet only outputs the heatmap corresponding to the foreground person while MHPNet predicts heatmaps for both persons using different values of λ at inference. HRNetは前景の人物に対応するヒートマップのみを出力し、MHPNetは推論時にλの異なる値を用いて双方の人物のヒートマップを予測する。 0.64
4. Experiments We evaluate MHPNet on three datasets: CommonObjects in Context-COCO [22], CrowdPose [20] and Occluded Humans-OCHuman [43]. 4. 実験 我々は,3つのデータセット(Context-COCO [22],CrowdPose [20],Occluded Humans-OCHuman [43])でMHPNetを評価した。 0.79
These datasets represent varying degrees of occlusion/crowding (see Table 1) and help illustrate the benefits of predicting multiple hypotheses in top-down methods. これらのデータセットは、閉塞/クラスタリングのさまざまな度合いを表しており(表1参照)、トップダウン手法で複数の仮説を予測する利点を示すのに役立ちます。 0.57
We report standard metrics such as AP, AP50, AP75, APM, APL, AR, APeasy, APmed and APhard at various Object Keypoint Similarity as defined in [22, 20]. 我々は,[22, 20]で定義された様々なオブジェクトキーポイント類似度において,AP, AP50, AP75, APM, APL, AR, APeasy, APmed, APhardなどの標準メトリクスを報告する。 0.79
We report results using ground truth bounding boxes as well as bounding boxes obtained via Faster R-CNN [34]. 我々は,Faster R-CNN[34]を介して得られた接地真理境界ボックスとバウンディングボックスを用いて結果を報告する。 0.64
We compare MHPNet against recent state-of-the-art networks, namely, SimpleBaseline [39] and HRNet [36]. MHPNetを最近の最先端ネットワークであるSimpleBaseline [39]とHRNet [36]と比較する。 0.74
When comparing with HRNet, MHPNet employs a similar feature extraction backbone and adds MHAB at the output of the convolutional blocks at the end of stages 3 and 4 [36]. HRNetと比較すると、MHPNetは同様の特徴抽出バックボーンを採用し、ステージ3と4の最後に畳み込みブロックの出力にMHABを追加します[36]。 0.57
For comparisons with SimpleBaseline [39], two MHABs are added to the last two ResNet blocks in the encoder. SimpleBaseline [39]との比較では、エンコーダの最後の2つのResNetブロックに2つのMHABが追加されます。 0.62
Please see the supplementary materials for architecture details. 建築の詳細は補足資料をご覧ください。 0.70
All experiments use N = 2, predicting two hypotheses for each input (also see Sect. すべての実験は n = 2 で、各入力に対する2つの仮説を予測している。 0.77
5). 5). 0.85
英語(論文から抽出)日本語訳スコア
Arch Method SBL† R-50 MHPNet† R-50 SBL† R-101 MHPNet† R-101 SBL† R-152 MHPNet† R-152 R-50 SBL(cid:63) MHPNet(cid:63) R-50 R-101 SBL(cid:63) MHPNet(cid:63) R-101 R-152 SBL(cid:63) R-152 MHPNet(cid:63) HRNet† H-32 MHPNet† H-32 HRNet† H-48 MHPNet† H-48 HRNet(cid:63) H-32 MHPNet(cid:63) H-32 HRNet(cid:63) H-48 MHPNet(cid:63) H-48 アーチ法 SBL(R-50 MHPNet) R-50 SBL(R-101 MHPNet) R-101 SBL(R-152 MHPNet) R-152 R-50 SBL(cid:63) MHPNet(cid:63) R-50 R-101 SBL(cid:63) MHPNet(cid:63) R-101 R-152 SBL(cid:63) R-152 MHPNet(cid:63) HRNet(H-32 MHPNet) H-32 HRNet(H-48 MHPNet) H-48 HRNet(cid:63) H-32 MHPNet(cid:63) H-32 HRNet(cid:63) H-32 HRNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-32 HRNet(cid:63) H-32 HRNet(cid:63) H-48 MHPNet(cid:63) 0.42
#Params 34.0M 35.0M (+2.8%) 53.0M 54.0M (+1.7%) 68.6M 69.6M (+1.4%) 34.0M 35.0M (+0.4%) 35.0M 54.0M (+0.3%) 68.6M 69.6M (+2.8%) 28.5M 28.6M (+1.7%) 63.6M 63.7M (+1.4%) 28.5M 28.6M (+0.4%) 63.6M 63.7M (+0.3%) #Params 34.0M 35.0M (+2.8%) 53.0M 54.0M (+1.7%) 68.6M 69.6M (+1.4%) 34.0M 35.0M (+0.4%) 35.0M 54.0M (+0.3%) 68.6M 69.6M (+2.8%) 28.5M 28.6M (+1.7%) 63.6M 63.7M (+1.4%) 28.5M 28.6M (+0.4%) 63.6M 63.7M (+0.3%) 0.48
AP 72.4 73.3 (+0.9) 73.4 74.1 (+0.7) 74.3 74.8 (+0.5) 74.1 75.3 (+1.2) 75.5 76.0 (+0.5) 76.6 77.0 (+0.4) 76.5 77.6 (+1.1) 77.1 77.6 (+0.5) 77.7 78.5 (+0.8) 78.1 78.8 (+0.7) AP 72.4 73.3 (+0.9) 73.4 74.1 (+0.7) 74.3 74.8 (+0.5) 74.1 75.3 (+1.2) 75.5 76.0 (+0.5) 76.6 77.0 (+0.4) 76.5 77.6 (+1.1) 77.1 77.6 (+0.5) 77.7 78.5 (+0.8) 78.1 78.8 (+0.7) 0.50
AP50 AP75 APM APL 76.5 91.5 77.6 93.3 77.7 92.6 78.6 93.3 92.6 78.7 79.4 93.3 79.6 92.6 80.4 93.4 92.5 80.8 81.1 93.4 81.3 92.6 81.9 93.5 80.8 93.5 94.4 81.9 81.9 93.6 82.1 94.4 82.5 93.6 94.4 83.0 83.1 93.6 94.4 83.7 AP50 AP75 APM APL 76.5 91.5 77.6 93.3 77.7 92.6 78.6 93.3 92.6 78.7 79.4 93.3 79.6 92.6 80.4 93.4 92.5 80.8 81.1 93.4 81.3 92.6 81.9 93.5 80.8 93.5 94.4 81.9 81.9 93.6 82.1 94.4 82.5 93.6 94.4 83.0 83.1 93.6 94.4 83.7 0.42
80.4 81.2 81.4 82.3 82.5 82.4 80.5 82.4 82.6 83.5 83.6 84.3 83.7 85.3 84.7 85.4 84.7 85.7 84.9 85.7 80.4 81.2 81.4 82.3 82.5 82.4 80.5 82.4 82.6 83.5 83.6 84.3 83.7 85.3 84.7 85.4 84.7 85.7 84.9 85.7 0.41
69.7 70.6 70.7 71.3 71.6 71.7 70.5 72.0 72.4 72.6 73.7 73.7 73.9 74.7 74.1 74.6 74.8 75.6 75.3 75.5 69.7 70.6 70.7 71.3 71.6 71.7 70.5 72.0 72.4 72.6 73.7 73.7 73.9 74.7 74.1 74.6 74.8 75.6 75.3 75.5 0.41
AR 75.6 76.7 76.5 77.4 77.4 78.2 76.9 78.4 78.4 79.1 79.3 80.0 79.3 80.6 79.9 80.6 80.4 81.4 80.9 81.6 AR 75.6 76.7 76.5 77.4 77.4 78.2 76.9 78.4 78.4 79.1 79.3 80.0 79.3 80.6 79.9 80.6 80.4 81.4 80.9 81.6 0.42
Table 2: MHPNet improves performance on COCO val set across various architectures and input sizes (using groundtruth bounding boxes for evaluation). 表2: MHPNetは、さまざまなアーキテクチャと入力サイズ(評価のために接地境界ボックスを使用して)にまたがるCOCOバルセットのパフォーマンスを向上させます。
訳抜け防止モード: 表2 : MHPNetは、様々なアーキテクチャと入力サイズにまたがるCOCO valの性能を改善します。 グラウンドトルースバウンディングボックスを使って評価する)
0.77
#Params are reported only for the pose estimation network, excluding bounding box computation. パラメータは、バウンディングボックスの計算を除いて、ポーズ推定ネットワークのみに報告されます。 0.57
R-@ and H-@ stands for ResNet-@ and HRNet-W@ respectively. R-@ と H-@ はそれぞれ ResNet-@ と HRNet-W@ の略である。 0.74
† and (cid:63) denotes input resolution of 256 × 192 and 384 × 288 respectively. (cid:63) はそれぞれ256 × 192 と 384 × 288 の入力解像度を表す。 0.83
SBL refers to SimpleBaseline [39]. SBL は SimpleBaseline [39] を指します。 0.85
4.1. COCO Dataset 4.1. COCOデータセット 0.74
Arch HRNet-W32† 70.0 MHPNet† 71.2 HRNet-W48† 71.3 MHPNet† 72.8 HRNet-W32(cid:63) 71.6 73.0 MHPNet(cid:63) HRNet-W48(cid:63) 72.8 73.7 MHPNet(cid:63) Arch HRNet-W32 72.8 MHPNet(cid:63) 71.6 73.0 MHPNet(cid:63) HRNet-W48(cid:63) 72.8 MHPNet(cid:63) 73.7 MHPNet(cid:63) 0.60
91.0 91.9 91.1 92.0 91.1 91.8 92.1 91.9 91.0 91.9 91.1 92.0 91.1 91.8 92.1 91.9 0.42
76.3 77.4 77.5 79.2 77.7 79.3 78.7 80.0 76.3 77.4 77.5 79.2 77.7 79.3 78.7 80.0 0.42
Dataset: COCO contains 64K images and 270K person instances labeled with 17 keypoints. データセット: COCOには64Kイメージと17のキーポイントでラベル付けされた270Kパーソンインスタンスが含まれている。 0.50
For training we use the train set (57K images, 150K persons) and for evaluation we use the val (5K images, 6.3K persons) and the test-dev set (20K images). トレーニングには列車セット(57K画像、150K人物)を使用し、評価にはヴァル(5K画像、6.3K人物)とテストデブセット(20K画像)を使用します。 0.79
The input bounding box is extended in either height or width to obtain a fixed aspect ratio of 4 : 3. 入力境界ボックスは、高さまたは幅のいずれかに延びて、固定アスペクト比4:3を得る。
訳抜け防止モード: 入力境界ボックスは高さまたは幅のいずれかに伸びている 固定アスペクト比4 : 3を得る。
0.83
The detection box is then cropped from the image and is resized to a fixed size of either 256 × 192 or 384×288, depending on the experiment. 検出ボックスは画像からトリミングされ、実験に応じて256×192または384×288の固定サイズに再サイズされます。 0.76
Following [27], we use data augmentation with random rotation ([−45◦, 45◦]), random scale ([0.65, 1.35]), flipping, and half-body crops. 27]に続いて、ランダム回転([−45*, 45*])、ランダムスケール([0.65, 1.35])、フリップ、および半体作物によるデータ増強を使用します。 0.71
Following [28, 36, 39], we use flipping and heatmap offset during inference. 28, 36, 39] に続いて, 推論中にフリップとヒートマップオフセットを使用する。 0.68
Results: Table 2 compares the performance of MHPNet with SimpleBaseline (denoted as SBL) and HRNet using ground truth bounding boxes. 結果:表2は、MHPNetのパフォーマンスをSimpleBaseline(SBLとして定義)とHRNetと比較します。
訳抜け防止モード: 結果:表2は、MHPNetの性能をSimpleBaseline(SBL)とHRNetと比較する。 真実を束縛する箱を使って
0.80
MHPNet outperforms the baseline across various backbones and input sizes. MHPNetは様々なバックボーンと入力サイズでベースラインを上回ります。 0.71
Using ResNet-50 backbone, MHPNet improves the SimpleBaseline results by 0.9 AP for smaller input size and 1.2 AP for larger input size. ResNet-50バックボーンを使用して、MHPNetはSimpleBaselineの結果を0.9 AP、入力サイズを1.2 AP改善します。 0.73
Comparing with HRNet, MHPNet shows an improvement ranging from 0.7 to 1.1 AP on various architectures and input sizes. HRNetと比較すると、MHPNetは様々なアーキテクチャと入力サイズで0.7から1.1 APの改善を示している。 0.67
Note that MHPNet results in < 3% increase in parameters compared to the baselines. MHPNetは、ベースラインと比較してパラメータが3%増加することに注意してください。 0.61
When using bounding boxes obtained from Faster RCNN, as expected, MHPNet performs comparably to HRNet (Table 5). Faster RCNNから得られたバウンディングボックスを使用する場合、MHPNetはHRNet(Table 5)と互換性がある。 0.75
Unsurprisingly, since most of the COCO bounding 当然のことながら、COCOのバウンディングの大部分は 0.61
AP AP50 AP75 APeasy APmed APhard 61.7 63.8 62.5 65.2 62.6 65.5 64.0 66.5 AP50 AP75 APeasy APmed APhard 61.7 63.8 62.5 65.2 62.6 65.5 64.0 66.5 0.55
78.8 78.8 80.5 80.6 80.4 80.7 81.3 80.7 78.8 78.8 80.5 80.6 80.4 80.7 81.3 80.7 0.42
70.3 71.5 71.4 73.1 72.1 73.3 73.3 74.1 70.3 71.5 71.4 73.1 72.1 73.3 73.3 74.1 0.42
Table 3: MHPNet outperforms HRNet on CrowdPose val set. 表3: MHPNet は CrowdPose val セットで HRNet を上回ります。 0.81
† and (cid:63) denote input resolution of 256 × 192 and 384 × 288, respectively. と (cid:63) はそれぞれ 256 × 192 と 384 × 288 の入力解像度を表している。 0.80
boxes contain a single person. 箱には一人の人がいる 0.65
The benefits of MHPNet are apparent on more challenging CrowdPose and OCHuman datasets (Sect. MHPNetの利点は、より困難なCrowdPoseおよびOCHumanデータセット(Sect。 0.61
4.2, 4.3). 4.2, 4.3). 0.71
4.2. CrowdPose Dataset 4.2. CrowdPoseデータセット 0.75
Dataset: CrowdPose contains 20K images and 80K persons labeled with 14 keypoints. データセット: CrowdPose には 20K の画像と 14 のキーポイントでラベル付けされた 80K の人物が含まれています。 0.44
CrowdPose has more crowded scenes as compared to COCO, but the index of crowding is less compared to the OCHuman [43]. CrowdPoseはCOCOに比べて混雑しているシーンが多いが、OCHuman[43]に比べて混雑の指標は低い。 0.68
For training, we use the train set (10K images, 35.4K persons) and for evaluation we use the val set (2K images, 8K persons) and test set (8K images, 29K persons). トレーニングには列車セット(10K画像35.4K人)を使用し、評価にはヴァルセット(2K画像8K人)とテストセット(8K画像29K人)を用いる。 0.83
Results: Table 3 compares the performance of MHPNet with HRNet when evaluated using ground-truth bounding boxes. 結果: 表3は, 接地バウンディングボックスを用いた評価におけるmhpnetとhrnetの性能を比較した。 0.65
MHPNet outperforms HRNet with improvements MHPNetがHRNetを上回り、改善 0.72
英語(論文から抽出)日本語訳スコア
in AP ranging from 0.9 to 1.5 across different input sizes. AP では 0.9 から 1.5 までの入力サイズが異なる。 0.69
As shown in Table 5, when evaluated using Faster R-CNN bounding boxes, MHPNet outperforms the published stateof-the-art HigherHRNet [7] (bottom-up method, multi-scale testing) model by 2.4 AP on the test set. 表5に示すように、より高速なR-CNNバウンディングボックスを用いて評価すると、MHPNetは、テストセット上で2.4 APで発行されたHigherHRNet [7](ボットアップ法、マルチスケールテスト)モデルよりも優れている。 0.59
For completeness, we also trained and evaluated HRNet on CrowdPose. 完全性のために、CrowdPose上でHRNetのトレーニングと評価も行いました。 0.51
MHPNet outperforms HRNet by 0.7 AP on the test set and 0.8 AP on the val set. MHPNet は HRNet をテストセットで 0.7 AP 、val で 0.8 AP で上回る。 0.85
We report additional metrics in the supplementary material. 補充材料に追加の指標を報告します。 0.66
Method Arch SBL† R-50 MHPNet† R-50 SBL† R-101 MHPNet† R-101 SBL† R-152 MHPNet† R-152 SBL(cid:63) R-50 MHPNet(cid:63) R-50 SBL(cid:63) R-101 MHPNet(cid:63) R-101 SBL(cid:63) R-152 MHPNet(cid:63) R-152 HRNet† H-32 MHPNet† H-32 HRNet† H-48 MHPNet† H-48 HRNet(cid:63) H-32 MHPNet(cid:63) H-32 HRNet(cid:63) H-48 MHPNet(cid:63) H-48 R-50 MHPNetは、R-50 HRNet(cid:63) H-32 MHPNet(cid:63) H-32 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-32 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) H-32 MHPNet(cid:63) H-32 MHPNet(cid:63) H-48 MHPNet(cid:63) H-48 MHPNet(cid:63) 0.34
AP 56.3 64.4 (+8.1) 60.5 68.2 (+7.7) 62.4 70.3 (+7.9) 55.8 66.3 (+10.5) 61.6 70.3 (+8.7) 64.2 72.4 (+8.2) 63.1 72.5 (+9.4) 64.5 72.2 (+7.7) 63.7 72.7 (+9.0) 65.0 74.1 (+9.1) AP 56.3 64.4 (+8.1) 60.5 68.2 (+7.7) 62.4 70.3 (+7.9) 55.8 66.3 (+10.5) 61.6 70.3 (+8.7) 64.2 72.4 (+8.2) 63.1 72.5 (+9.4) 64.5 72.2 (+7.7) 63.7 72.7 (+9.0) 65.0 74.1 (+9.1) 0.50
AP50 AP75 APM APL AR 76.1 61.2 66.4 56.3 61.0 86.0 70.4 66.8 64.4 72.3 77.2 66.6 68.3 60.5 64.7 87.4 75.1 67.0 68.2 75.5 78.3 68.1 68.3 62.4 66.5 88.6 77.9 66.9 70.2 77.0 74.8 60.4 64.7 55.9 60.7 87.5 72.2 66.0 66.3 74.1 77.2 66.6 62.1 61.6 65.8 88.4 77.1 64.1 70.4 77.7 78.3 69.1 66.5 64.2 68.1 89.5 79.5 67.7 72.5 79.6 79.4 69.0 64.2 63.1 67.3 89.2 79.4 65.1 72.6 79.1 79.4 70.1 65.1 64.5 68.5 89.5 78.7 66.5 72.3 79.2 78.4 69.0 64.3 63.7 67.6 89.6 79.6 66.5 72.7 79.7 78.4 70.3 68.4 65.0 68.8 89.7 80.1 68.4 74.1 81.0 AP50 AP75 APM APL AR 76.1 61.2 66.4 56.3 61.0 86.0 70.4 66.8 64.4 72.3 77.2 66.6 68.3 60.5 64.7 87.4 75.1 67.0 68.2 75.5 78.3 68.1 68.3 62.4 66.5 88.6 77.9 66.9 70.2 77.0 74.8 60.4 64.7 55.9 60.7 87.5 72.2 66.0 66.3 74.1 77.2 66.6 62.1 61.6 65.8 88.4 77.1 64.1 70.4 77.7 78.3 69.1 66.5 64.2 68.1 89.5 79.5 67.7 72.5 79.6 79.4 69.0 64.2 63.1 67.3 89.2 79.4 65.1 72.6 79.1 79.4 70.1 65.1 64.5 68.5 89.5 78.7 66.5 72.3 79.2 78.4 69.0 64.3 63.7 67.6 89.6 79.6 66.5 72.7 79.7 78.4 70.3 68.4 65.0 68.8 89.7 80.1 68.4 74.1 81.0 0.40
Table 4: Comparisons on OCHuman val set with groundtruth bounding box evaluation after training on COCO train set. 表4:COCOの列車セットの訓練の後で地上の境界箱の評価を用いるOCHumanのvalセットの比較。 0.71
† and (cid:63) denotes input resolution of 256×192 and 384 × 288 respectively. と (cid:63) はそれぞれ 256×192 と 384 × 288 の入力分解能を表す。 0.70
R-@ denotes ResNet-@ and H-@ denotes HRNet-W@. R-@はResNet-@、H-@はHRNet-W@を表す。 0.63
SBL refers to SimpleBaseline [39]. SBL は SimpleBaseline [39] を指します。 0.85
4.3. OCHuman Dataset 4.3. OCHuman Dataset 0.78
Dataset: OCHuman is focused on heavily occluded humans. データセット: OCHumanは、密集した人間に焦点を当てている。 0.58
It contains 4731 images and 8110 persons labeled with 17 keypoints. 17のキーポイントでラベル付けされた4731の画像と881の人が含まれています。 0.48
In OCHuman, on an average 67% of the bounding box area has overlap with other bounding boxes [43], compared to only 0.8% for COCO. OCHuman では、境界ボックス領域の平均 67% が他の境界ボックス [43] と重複しており、COCO では 0.8% に過ぎません。 0.77
Additionally, the number of examples with occlusion IoU > 0.5 is 68% for OCHuman, compared to 1% for COCO (Table 1). さらに、閉塞IoU > 0.5の例の数は、COCO(表1)の1%と比較して、OCHumanの68%です。 0.71
This makes the OCHuman dataset complex and challenging for human pose estimation under occlusion. これにより、OCHumanデータセットが複雑になり、閉塞下での人間のポーズ推定が困難になる。 0.51
The single person assumption made by existing top-down methods is not entirely applicable to examples in this dataset. 既存のトップダウンメソッドによる一人称仮定は、このデータセットの例に完全に当てはまるものではない。 0.67
Similar to [43], we use the train set of COCO for training. 43]と同様に、トレーニングにはCOCOの列車セットを使用します。 0.78
Note that we do not train on the OCHuman train set. OCHumanの列車セットでのトレーニングは行っておりません。 0.75
For evaluation, we use the val set (2, 500 images, 4, 313 persons) and the test set (2, 231 images, 3, 819 persons). 評価には、val セット (2, 500 画像、4, 313 画像) と test セット (2, 231 画像、3, 819 画像) を使用します。 0.71
Results: Table 4 compares the performance of MHP- 結果:表4はMHPの性能を比較する- 0.84
Figure 4: Unlike HRNet, MHPNet maintains a stable performance as a function of detector confidence for selecting input bounding boxes. 図4: HRNetとは異なり、MHPNetは入力境界ボックスを選択するための検出信頼度関数として安定した性能を維持している。 0.68
Results are shown using HRNet-W48384 × 288 evaluated on OCHuman val set. 結果は,hrnet-w48384×288を用いて評価した。 0.55
Net with SimpleBaseline and HRNet on OCHuman when evaluated with ground truth bounding boxes on the val set. OCHuman 上で SimpleBaseline と HRNet を使って val セット上の接地真理境界ボックスで評価する。 0.77
MHPNet significantly outperforms SimpleBaseline with improvements in AP ranging from 7.7 to 10.5, across various architectures and input sizes. MHPNetはSimpleBaselineよりも優れており、APは7.7から10.5まで、様々なアーキテクチャや入力サイズで改善されている。 0.55
Similarly, for HRNet the performance gains between 7.7 to 9.4 AP are observed. 同様に、HRNetでは7.7から9.4 APの性能向上が観察される。 0.59
Current state-of-the-art results on OCHuman are reported by HGG [16] (bottom-up method, multi-scale testing) as shown in Table 5. 表5に示すように, HGG [16] (ボットアップ法, マルチスケールテスト) によりOCHumanの現状を報告する。 0.71
In addition, we also evaluated HRNet using Faster R-CNN bounding boxes on OCHuman for a fair comparison. さらに,OCHuman上の高速R-CNNバウンディングボックスを用いたHRNetの評価を行った。 0.71
MHPNet outperforms HRNet and HGG by 5.3 AP and 6.5 AP, respectively, on the test set. MHPNetは5.3 APと6.5 APでHRNetとHGGをそれぞれ上回っている。 0.76
The improvements are significant and to the best of our knowledge, this is the first time a top-down method has outperformed the state-of-the-art bottom-up method on OCHuman. 改善は重要であり、私たちの知る限りでは、トップダウンメソッドがOCHumanの最新のボトムアップメソッドを上回ったのはこれが初めてです。 0.68
Figure 8 shows qualitative results on several examples from OCHuman, highlighting the effectivness of MHPNet in recovering multiple poses under challenging condiitions. 図8はOCHumanのいくつかの例で定性的な結果を示し、困難な条件下で複数のポーズを回復するMHPNetの効果を強調しています。 0.55
In some cases, MHPNet can fail due to large difference in the scale of the various pose instances in a given bounding box, as shown in Figure 7. 場合によっては、図7に示すように、特定のバウンディングボックス内のさまざまなポーズインスタンスのスケールが大きく異なるため、MHPNetが失敗することがあります。 0.74
Robustness to Human Detector Outputs: The performance of top-down methods is often gated by the quality of human detection outputs. ヒト検出器出力に対するロバスト性:トップダウン方式の性能は、しばしば人間の検出出力の品質によって阻害される。 0.76
We analyze the robustness of HRNet and MHPNet with varying detector confidence on OCHuman in Fig. Fig の OCHuman における HRNet と MHPNet の堅牢性を様々な検出器の信頼性で分析します。 0.69
4. As expected, HRNet performance degrades as low confidence bounding boxes are filtered out, leading to missed detections on occluded persons. 4. HRNetのパフォーマンスは、低信頼のバウンディングボックスがフィルタリングされるにつれて低下する。
訳抜け防止モード: 4. HRNetのパフォーマンスは予想通り低下する 信頼度が低い箱が 取り除かれ 密閉された人物の 発見に失敗する
0.74
Specifically, HRNet performance degrades from 37.8 AP (30637 bounding boxes) to 32.8 AP (6644 bounding boxes), when the detector confidence is varied from 0 to 0.9. 特にHRNetの性能は、検出器の信頼性が0から0.9に変化すると37.8 AP(30637バウンディングボックス)から32.8 AP(6644バウンディングボックス)に低下する。 0.66
Since HRNet is only able to provide a single output per bounding box, the average precision drops corresponding to misdetections on the occluded persons. HRNetはバウンディングボックスごとに1つの出力のみを提供することができるため、対象者の誤検出に対応する平均精度が低下します。 0.69
In contrast, MHPNet maintains a relatively stable performance (drop of 1 AP) as shown in Fig. 対照的に、MHPNetは図に示すように比較的安定した性能(1 APの低下)を維持します。 0.64
4 for the same inputs. 同じ入力のための4。 0.77
Since MHPNet can predict MHPNetは予測できるので 0.77
00.10.20.30.40.50.60 .70.80.912527.53032. 53537.54042.537.837. 53736.536.135.735.23 4.83432.827.84241.94 1.741.741.541.341.34 1.241.14140.7APMinim um Bounding Box Confidence HRNet MHPNet 00.10.20.30.40.50.60 .70.80.912527.53032. 53537.54042.537.837. 53736.536.135.735.23 4.83432.827.84241.94 1.741.741.541.341.34 1.241.14140.7APMinim um Bounding Box Confidence HRNet MHPNet 0.12
英語(論文から抽出)日本語訳スコア
Method COCO CrowdPose OCHuman val test val test val test 方法 COCO CrowdPose OCHuman val test val test val test 0.82
- CrowdPose [20] 70.9 HigherHRNet∗ [7] 67.1 70.5OCHuman [43] HGG∗ [16] HRNet [36] MHPNet (Ours) - CrowdPose [20] 70.9 HigherHRNet∗ [7] 67.1 70.5OCHuman [43] HGG∗ [16] HRNet [36] MHPNet (Ours) 0.87
- 66.0 67.6 - 66.0 67.6 0.68
- - 22.2 23.8 55.2 68.3 67.6 41.8 36.0 76.3 75.5 68 .0 69 .3 37 .8 37 .2 76.3 75.3 68.8 70.0 42.0 42.5 - - 22.2 23.8 55.2 68.3 67.6 41.8 36.0 76.3 75.5 68 .0 69 .3 37 .8 37 .2 76.3 75.3 68.8 70.0 42.0 42.5 0.73
- Table 5: Comparison with state-of-the-art methods using bounding boxes from a human detector on various datasets. - 表5: さまざまなデータセット上の人間検出器からのバウンディングボックスを用いた最先端手法との比較。 0.75
∗ denotes bottom-up methods. はボトムアップメソッドを表します。 0.51
The numbers in italics are our evaluation of HRNet on these datasets. イタリックの数値は、これらのデータセット上のHRNetの評価です。 0.62
Other numbers are reported from the respective publications. その他の数字は各出版物から報告されている。 0.59
Figure 5: As λ is varied from 0 to 1 during inference, the keypoints (in blue) gradually shift from the foreground person to the other pose instance within the bounding box. 図5: λは推論中に0から1に変化するため、キーポイント(青)は、境界ボックス内の前景の人物から他のポーズインスタンスに徐々にシフトします。 0.83
Pose Enhancement HRNet MHPNet DARK [42] PoseFix[26] DARK-PoseFix Pose Enhancement HRNet MHPNet DARK [42] PoseFix[26] DARK-PoseFix 0.97
79.4 79.9 80.0 79.4 79.9 80.0 0.47
78.8 79.5 79.5 78.8 79.5 79.5 0.47
Table 6: Improvement in MHPNet performance on COCO val set using various pose enhancement methods. 表6: 様々なポーズ強化手法を用いたCOCO val 上での MHPNet の性能改善。 0.83
multiple hypotheses, it can recover pose configurations for occluded persons despite misdetection of their corresponding bounding boxes. 複数の仮説で 隠蔽された人の ポーズ設定を復元できる 境界ボックスの誤検出にも拘わらず 0.53
This is a desirable property afforded by our proposed multi-hypothesis attention network. これは、提案したマルチハイプセシスアテンションネットワークによって得られる望ましい特性である。 0.61
5. Discussions Figure 6: Percentage of examples with 1, 2 and 3+ pose instances per ground truth bounding box in various datasets. 5. 討論 図6: さまざまなデータセットの基底真理バウンディングボックスに1、2、3+のインスタンスがある場合の割合。 0.72
Number of Hypothesis N: By design, MHPNet supports predicting any number of hypotheses, N, at the expense of linearly increasing the inference time with N. Trivially, N = 1 without MHAB is equivalent to baseline top-down methods. 仮説数 N: 設計により、MHPNet は N との推論時間を線形的に増加させるため、任意の仮説数 N の予測をサポートする。
訳抜け防止モード: 仮説 N の数 : MHPNet は設計上、任意の数の仮説の予測をサポートします。 N は、N による推論時間を線形に増加させることを犠牲にしている。MHAB のない N = 1 は、ベースライントップダウンメソッドと等価である。
0.65
Section 4 have shown improvements in performance using N = 2 for MHPNet. 第4節では、MHPNetのN = 2による性能改善が示されている。 0.68
However, we did not observe any further improvements using N = 3. しかし、N = 3 ではさらなる改善は見られませんでした。 0.77
This is consistent with the fact that most datasets have few examples with three or more ground-truth pose instances per bounding box (Fig. これは、ほとんどのデータセットがバウンディングボックス毎に3つ以上の基底ポーズインスタンスを持つ例が少ないという事実と一致している。
訳抜け防止モード: これは ほとんどのデータセットには、3つ以上の地盤を持つ例がほとんどない -境界ボックス毎の真理ポーズ(図)。
0.71
6). Improvements to MHPNet: As shown in Table. 6). MHPNetの改善: 表に示すように。 0.81
6, pose enhancement methods such as DARK [42] and PoseFix [26] can further improve the performance of MHPNet. 6) DARK [42] や PoseFix [26] のようなポーズ強化手法は, MHPNet の性能をさらに向上させることができる。 0.78
Visualization with continuous λ: MHPNet’s ability to predict multiple hypotheses provides a useful tool to visualize how attention can dynamically switch between various pose configurations during inference. 連続λによる可視化: MHPNetが複数の仮説を予測できる能力は、推論中に様々なポーズ設定を動的に切り替える方法の可視化に有用なツールを提供する。
訳抜け防止モード: 連続λによる可視化 : MHPNetの多重仮説予測能力は有用なツールを提供する 推論中に様々なポーズ設定を動的に切り替える様子を可視化する。
0.86
Fig. 5 shows how the predicted keypoints gradually shift from the foreground person to the other pose instance within the bounding box, as λ is varied from 0 to 1. フィギュア。 5 は λ が 0 から 1 に変化するので、予測されたキーポイントが、境界ボックス内の前景から他のポーズインスタンスに徐々にシフトする様子を示す。 0.59
6. Conclusion Top-down 2D pose estimation methods make the key assumption of a single person within the input bounding box 6. 結論 トップダウン2Dポーズ推定手法は入力バウンディングボックス内の1人のキー推定を行う 0.76
Figure 7: MHPNet fails in some cases with significant scale difference between multiple persons in the bounding box. 図7: MHPNetは、バウンディングボックス内の複数の人の間で大きなスケール差があるケースで失敗します。 0.69
during training and inference. While these methods have shown impressive results, the single person assumption limits their ability to perform well in crowded scenes with occlusions. 訓練と推測の間です これらの手法は印象的な結果を示したが、単独の仮定では、咬合のある混み合ったシーンでうまく機能する能力に制限がある。 0.61
Our proposed Multi-Hypothesis Attention Network, MHPNet, enables top-down methods to predict multiple hypotheses for a given input. 提案するマルチ・ハイポテーシス・アテンション・ネットワーク(MHPNet)は,トップダウン手法で与えられた入力に対して複数の仮説を予測できる。 0.69
Our approach is efficient in terms of the number of additional network parameters and is stable with respect to the quality of the input bounding boxes. 私たちのアプローチは、追加のネットワークパラメータの数の点で効率的であり、入力バウンディングボックスの品質に関して安定しています。 0.80
MHPNet achieves state-of-art results on challenging datasets with significant crowding and occlusions. MHPNetは、大きな群集と閉塞を伴う挑戦的なデータセットで最先端の結果を達成します。 0.44
We believe that the concept of predicting multiple hypotheses is an important conceptual change and will inspire a new research direction for top-down methods. 我々は、複数の仮説を予測するという概念は重要な概念変化であり、トップダウン手法の新しい研究方向を刺激すると信じている。 0.62
98.71.20.192.27.70.1 18.880.30.912>=30102030405060708090 Nummber of BBs (%)Number of Persons in BB (IoU > 0.5) COCO CrowdPose OCHuman 98.71.20.192.27.70.1 18.880.30.912>=30102030404050607080 90BBs (%) BB (IoU > 0.5) COCO CrowdPose OCHuman 0.62
英語(論文から抽出)日本語訳スコア
Figure 8: Qualitative results on OCHuman val set. 図8:OCHuman valセットの定性的な結果。 0.82
Each image (left to right) shows input bounding boxes, HRNet predictions and MHPNet predictions. 各画像(左から右)は入力バウンディングボックス、HRNet予測、MHPNet予測を表示する。 0.66
Due to occlusions, HRNet often misses the person in the background which is recovered by MHPNet. 閉塞のために、HRNetはしばしばMHPNetによって回復されたバックグラウンドの人を見逃します。 0.64
Please see additional results in supplementary materials. 補足材料の追加結果を見てください。 0.75
英語(論文から抽出)日本語訳スコア
7. Appendix 7.1. MHAB Code 7. 付録7.1。 MHABコード 0.74
In this section, we describe the code of MHAB in PyTorch. このセクションでは、PyTorch で MHAB のコードを説明します。 0.74
The code in Listing. 1 outlines the details of functions Fsq, Fex and Fatn. 表示中のコード。 Fsq, Fex, Fatn の各機能の詳細を概説する。 0.65
Fsq is a simple global average pool and Fex and Fatn are two-layered neural networks. Fsqは単純なグローバル平均プールであり、FexとFatnは2層ニューラルネットワークである。 0.73
MHAB can be incorporated in any existing feature extraction backbone, with a relatively simple (< 15 lines) code change. MHABは、比較的単純な(< 15行)コード変更で、既存の機能抽出バックボーンに組み込むことができる。 0.78
1 class MHAB(nn.Module): 2 1 class MHAB(nn.Module): 2 0.96
def __init__(self, num_channels=c, reduce=r): def __init__(self, num_channels=c, reduce=r) 0.73
3 4 5 6 7 8 3 4 5 6 7 8 0.85
9 10 11 12 9 10 11 12 0.85
13 14 15 16 13 14 15 16 0.85
17 18 19 20 17 18 19 20 0.85
21 22 23 24 21 22 23 24 0.85
25 26 27 28 25 26 27 28 0.85
29 30 super(MHAB, self).__init__() self.F_sqn = nn.AdaptiveAvgPool2d (1) 29 30 super(MHAB, self).__init__() self.F_sqn = nn.AdaptiveAvgPool2d (1) 0.84
self.F_ex = nn.Sequential( self.F_ex = nn.Sequential( 0.53
nn.Linear(c, c // r, bias=False), nn.ReLU(inplace=True), nn.Linear(c // r, c, bias=False), nn.Sigmoid() nn.Linear(c, c // r, bias=False), nn.ReLU(inplace=True), nn.Linear(c // r, c, bias=False), nn.Sigmoid() 0.83
) self.F_atn = nn.Sequential( ) self.F_atn = nn.Sequential( 0.69
nn.Linear(2, c // r), nn.BatchNorm1d(c // r), nn.ReLU(inplace=True), nn.Linear(c // r, c), nn.Sigmoid() nn.Linear(2, c // r), nn.BatchNorm1d(c // r), nn.ReLU(inplace=True), nn.Linear(c // r, c), nn.Sigmoid() 0.85
) return def forward(self, x, lambda): ) 戻る def forward(self, x, lambda): 0.82
b, c, _, _ = x.size() y = self.F_sqn(x).view(b , c) y = self.F_ex(y).view(b, c, 1, 1) b, c, _, _ = x.size() y = self.F_sqn(x)view(b, c) y = self.F_ex(y)view(b, c, 1, 1) 0.95
z = self.F_atn(lambda).v iew(b, c, 1, 1) z = self.F_atn(lambda.vi ew(b, c, 1, 1) 0.95
out = x * y.expand_as(x) * z.expand_as(x) return out out = x * y.expand_as(x) * z.expand_as(x) return out 0.78
Listing 1: Code for MHAB. リスト1: mhabのコード。 0.56
7.2. Architecture Details 7.2. 建築の詳細 0.74
MHPNet-HRNet: Figure. MHPNet-HRNet: 図。 0.77
9 shows the architecture details of HRNet [36]. 9はhrnet [36] のアーキテクチャの詳細を示している。 0.59
For simplicity, we only show backbone HRNet-W32 at input size 256×192, other HRNet backbones follow similar pipeline. 単純な場合、バックボーン HRNet-W32 を入力サイズ 256×192 でのみ表示し、他の HRNet バックボーンも同様のパイプラインに従う。 0.60
Figure. 10 shows the architecture of MHPNet, where multiple MHABs are inserted at various stages. 図。 10はmhpnetのアーキテクチャを示し、複数のmhabを様々なステージで挿入する。 0.68
MHPNet-SimpleBaselin e: Figure. MHPNet-SimpleBaselin e: 図。 0.77
11 shows the architecture details of SimpleBaseline [39]. 図11はSimpleBaseline [39]のアーキテクチャの詳細を示しています。 0.67
Figure. 12 shows the architecture of MHPNet, where multiple MHABs are inserted in the encoder of the pose estimator.. 7.3. 図。 12は、ポーズ推定器のエンコーダに複数のMHABが挿入されるMHPNetのアーキテクチャを示している。
訳抜け防止モード: 図。 12は、MHPNetのアーキテクチャを示します。 ポーズ推定器のエンコーダに複数のMHABが挿入される .. 7.3 .
0.69
Robustness to Bounding Box Confidence Box Confidence のバウンディングに対するロバスト性 0.67
Table 7 illustrates the number of Faster-RCNN bounding boxes as a function of minimum bounding box confidence. 表7は、最小境界ボックスの信頼性の関数として、より高速なRCNNバウンディングボックスの数を示しています。 0.57
Notice that a majority of all available bounding boxes (min. 利用可能なすべてのバウンディングボックス(分)の大部分に注意してください。 0.54
confidence = 0.0) have confidence < 0.4. 信頼 = 0.0) は信頼 < 0.4。 0.62
Min. BB Confid. Min BB Confid。 0.66
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.99 0.42
OCHuman val 30637 22247 16273 13603 11944 10654 9626 8699 7768 6644 4416 OCHuman val 30637 22247 16273 13603 11944 10654 9626 8699 7768 6644 4416 0.85
test 26992 19704 14613 12216 10767 9645 8697 7880 7018 5989 3883 test 26992 19704 14613 12216 10767 9645 8697 7880 7018 5989 3883 0.85
Table 7: Number of Faster-RCNN bounding boxes greater than a given confidence score. 表7: 与えられた信頼スコアより大きい高速RCNNバウンディングボックスの数。 0.80
Inference HRNet MHPNet (SHP, λ = 1) MHPNet (SHP, λ = 0) MHPNet (MHP) 推論 HRNet MHPNet (SHP, λ = 1) MHPNet (SHP, λ = 0) MHPNet (MHP) 0.83
COCO CrowdPose OCHuman 78.1 55.8 78.3 78.8 COCO CrowdPose OCHuman 78.1 55.8 78.3 78.8 0.59
72.8 42.2 72.7 73.7 72.8 42.2 72.7 73.7 0.45
65.0 41.4 65.7 74.1 65.0 41.4 65.7 74.1 0.45
Table 8: Performance of each individual hypothesis of MHPNet on val sets using ground truth bounding boxes. 表8: 接地真理バウンディングボックスを用いた val 集合上の MHPNet の個々の仮説のパフォーマンス。 0.84
We use the backbone W48 with image resolution 384 × 288, and compare with the same HRNet configuration. バックボーンW48を画像解像度384×288で使用し、同じHRNet構成と比較します。 0.71
By default, HRNet only predicts a single hypothesis. デフォルトでは、HRNetは単一の仮説のみを予測する。 0.60
We compare the performance of MHPNet to HRNet as a function of varying minimum confidence on OCHuman test dataset in Fig. We compare the performance of MHPNet to HRNet as a function of various minimum confidence on OCHuman test dataset in Fig。 0.80
14 and val dataset in Fig. 図14およびvalデータセット。 0.67
13 (also shown in the paper). 13 (またペーパーで示される)。 0.71
MHPNet is much more stable w.r.t bounding box confidence thresholding, as compared to baseline networks like HRNet. MHPNetは、HRNetのようなベースラインネットワークと比較して、はるかに安定したw.r.tバウンディングボックス信頼しきい値付けである。 0.58
We note that while MHPNet AP drops from 42.5 to 41.4 (1.1 AP drop) on test set at minimum confidence of 0.9, HRNet drops by more than 6 AP. MHPNet AP は 0.9 の最小信頼度でテストセットで 42.5 から 41.4 (1.1 AP ドロップ) まで低下するが、HRNet は 6 AP 以上低下する。 0.84
This performance is consistent with the performance on the val dataset (Fig. このパフォーマンスは、valデータセット(図)のパフォーマンスと一致します。 0.72
4 in the paper). 7.4. 論文では4)。 7.4. 0.61
Individual Hypothesis Performance It is interesting to compare the performance of each individual hypothesis predicted by MHPNet in isolation. 個々の仮説性能 MHPNetが個別に予測した個々の仮説の性能を比較することは興味深い。 0.75
Since λ = 0 correspond to the primary hypothesis (centered on the person), only using the primary hypothesis for inference is expected to give better results compared to only using λ = 1 hypothesis during inference. λ = 0 は一次仮説(人中心)に対応するため、推論に主仮説を用いるだけでは、推論中に λ = 1 仮説を使うよりもよい結果が得られることが期待される。 0.80
In addition, we also expect λ = 0 hypothesis to provide similar performance as baseline top-down network, if used in isolation. さらに、λ = 0 仮説は、単独で使用する場合、ベースライントップダウンネットワークと同様のパフォーマンスを提供すると予想する。 0.72
Table 8 shows the performance of each individual hypothesis mode of MHPNet with HRNet-W48 backbone at input size 384 × 288 on various datasets, using ground truth bounding boxes. 表8は、様々なデータセット上の入力サイズ384×288のhrnet-w48バックボーンを持つmhpnetの個々の仮説モードのパフォーマンスを示す。 0.67
Note that when using only a single hypothesis from MHPNet for MHPNet から 1 つの仮説のみを使用する場合に注意してください。 0.54
英語(論文から抽出)日本語訳スコア
Figure 9: Illustration of HRNet-W32 backbone at input resolution 256 × 192. 図9:入力解像度256×192のHRNet-W32バックボーンのイラストレーション。 0.81
The blue blocks depict the four stages in the architecture. 青いブロックは、建築の4つの段階を描いています。 0.62
Figure 10: Illustration of MHPNet with HRNet-W32 backbone at input resolution 256 × 192. 図10:入力解像度256 × 192のHRNet-W32バックボーンによるMHPNetのイラストレーション。 0.82
We insert 5 MHABs into the HRNet, 4 MHABs after Stage 3 and 1 MHAB after Stage 4. HRNetに5MHAB、ステージ3の後に4MHAB、ステージ4の後に1MHABを挿入します。 0.50
inference, performance of primary hypothesis (λ = 0) is similar to HRNet. 推測では、プライマリ仮説 (λ = 0) のパフォーマンスは HRNet と似ている。 0.70
When using multiple hypothesis during inference, we get an improvement of 8.4 AP (65.7 to 74.1 AP) on the OCHuman dataset. 推論中に複数の仮説を使用する場合、OCHumanデータセットの8.4 AP(65.7から74.1 AP)が改善される。 0.71
7.5. Ablation: MHAB 7.5. アブレーション:MHAB 0.63
In this section, we study the effect of ablation for MHAB. 本稿では,mhabに対するアブレーションの効果について検討する。 0.55
As outlined in the paper, MHAB consists of three operations squeeze Fsq, excite Fex and attend Fatn. 論文で概説されているように、MHABは3つの操作でFsqを圧縮し、Fexを励起し、Fatnに出席する。
訳抜け防止モード: MHABは3つの業務から成り立っています。 Fsqを絞ってFexを興奮させ、Fatnに参加してください。
0.54
Of the three operations, the attend operation Fatn consumes the λ pa- 3つの操作のうち、出席操作Fatnはλ paを消費する。 0.68
rameter that we pass as additional input to MHAB. MHABへの追加入力として渡されるラメータ。 0.67
In Tab. 9, we show the effect of only using the attention block by disabling Fsq and Fex, in the first row for both COCO and OCHuman val datasets. タブ内。 9) cocoおよびochuman valデータセットの1行目において,fsqとfexを無効にして注意ブロックのみを使用することの効果を示す。 0.66
Note that these numbers are lower than corresponding experiments that use Fsq and Fex operations, by 0.3 AP for COCO (Tab. これらの数は、COCO (Tab) に対して 0.3 AP で Fsq および Fex 演算を使用する実験よりも低いことに注意されたい。 0.70
2, last row in paper) and 3.3 AP (Tab. 2のペーパーの最後の列)および3.3 AP (タブ。 0.78
4, last row in paper) for OCHuman val datasets. OCHuman val データセットは、以下の通りである。 0.49
This confirms that all three operations contribute to MHAB, and therefore to MHPNet. これにより、3つの操作はすべてmhabに、従ってmhpnetに寄与する。 0.57
We further study the effect of varying the intermediate linear layer within Fsq and さらに、Fsq内における中間線形層の変化の影響について検討する。 0.61
Stage 1Stage 2Stage 3Stage 41x1 conv32 x 64 x 48 64 x 32 x 24 128 x 16 x 12 256 x 8 x 63 x 256 x 192 17 x 64 x 48 Stage 1Stage 2Stage 3Stage 41x1 conv3 x 256 x 192 17 x 64 x 48 Multi-HypothesisAtte ntionBlockMHABlambda lambdaMHABMHABMHABMH ABMHAB Stage 1Stage 2Stage 3Stage 2Stage 3Stage 3Stage 41x1 conv32 x 64 x 48 64 x 32 x 24 128 x 16 x 12 256 x 8 x 63 x 256 x 192 17 x 64 48 Stage 1Stage 2Stage 3Stage 41x1 conv3 x 256 x 192 17 x 64 x 48 Multi-HypothesisAtte ntionBlockMHABlambda MHABMHABMHABMHABMHAH AB 0.59
英語(論文から抽出)日本語訳スコア
Figure 11: Illustration of SimpleBaseline architecture. 図11: SimpleBaselineアーキテクチャの図示。 0.76
The blue blocks represent the four blocks in the encoder of SimpleBaseline. 青いブロックはSimpleBaselineのエンコーダの4つのブロックを表す。 0.80
Figure 12: Illustration of MHPNet with SimpleBaseline architecture. 図12:SimpleBaselineアーキテクチャによるMHPNetのイラストレーション。 0.83
We insert 2 MHABs into the encoder after Block 3 and Block 4. ブロック3とブロック4の後、2つのmhabをエンコーダに挿入する。 0.69
Figure 13: Unlike HRNet, MHPNet maintains a stable performance as a function of detector confidence for selecting input bounding boxes. 図13:HRNetとは異なり、MHPNetは入力境界ボックスを選択するための検出信頼度関数として安定した性能を維持している。 0.69
Results are shown using HRNet-W48384 × 288 evaluated on the val set of OCHuman. OCHumanのval集合上で評価したHRNet-W48384 × 288を用いて実験を行った。 0.59
Figure 14: Similar to Figure 13 we show results on the test set of OCHuman. 図14:図13と同様に、OCHumanのテストセットの結果を示します。 0.78
7.6. Qualitative Results 7.6. 質的な結果 0.71
Fex, which is controlled by the reduce parameter [12] in Listing 1. FexはListing 1のreduceパラメータ[12]によって制御されます。 0.77
While all the results reported in the paper use the default value of reduce=4, we show that reduce=2 and reduce=1 show comparable results. 論文で報告されたすべての結果は、reduce=4のデフォルト値を使用するが、reduce=2とreduce=1は同等の結果を示す。
訳抜け防止モード: 論文で報告されたすべての結果はデフォルト値の reduce=4 を使用する。 reduce=2 と reduce=1 は同等の結果を示す。
0.76
Figure 15 and Figure 16 shows additional results on the OCHuman dataset, comparing MHPNet to HRNet. 図15と図16は、OCHumanデータセットの追加結果を示し、MHPNetとHRNetを比較します。 0.66
Note that in all of these cases, HRNet faces the problem of having highly overlapping bounding boxes because of the spatial これらのすべてのケースにおいて、HRNetは空間のために高い重なり合う有界箱を持つという問題に直面していることに注意。
訳抜け防止モード: これらのケースの全てにおいてhrnetは問題に直面しています 空間性のため、高い重なり合いのバウンディングボックスを持つさま
0.61
Block 1DeConv3 x 256 x 192 17 x 64 x 48 Block 2Block 3Block 4Block 1DeConv3 x 256 x 192 17 x 64 x 48 Block 2Block 3Block 4Multi-HypothesisAtt entionBlockMHABMHABM HABlambdalambda00.10 .20.30.40.50.60.70.8 0.912527.53032.53537 .54042.537.837.53736 .536.135.735.234.834 32.827.84241.941.741 .741.541.341.341.241 .14140.7APMinimum Bounding Box Confidence HRNet MHPNet00.10.20.30.40 .50.60.70.80.9125303 5404537.236.836.235. 735.234.834.333.732. 931.727.142.542.342. 242.14241.941.841.74 1.541.441APMinimum Bounding Box Confidence HRNet MHPNet Block 1DeConv3 x 256 x 192 17 x 64 x 48 Block 2Block 3Block 4Block 1DeConv3 x 256 x 192 17 x 64 x 48 Block 2Block 3Block 4Multi-HypothesisAtt entionBlockMHABMHABM HABlambdalambda00.10 .20.30.40.50.60.70.8 0.912527.53032.53537 .54042.537.837.53736 .536.135.735.234.834 32.827.84241.941.741 .741.541.341.341.241 .14140.7APMinimum Bounding Box Confidence HRNet MHPNet00.10.20.30.40 .50.60.70.80.9125303 5404537.236.836.235. 735.234.834.333.732. 931.727.142.542.342. 242.14241.941.841.74 1.541.441APMinimum Bounding Box Confidence HRNet MHPNet 0.24
英語(論文から抽出)日本語訳スコア
Method Arch Ablation 方法 アーチアブレーション 0.58
AP AP50 AP75 APM APL AR AR50 AR75 ARM ARL AP AP50 AP75 APM APL AR50 AR75 ARM ARL 0.87
MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 0.62
only attention reduce=1 reduce=2 reduce=4 only attention reduce=1 reduce=2 reduce=4 0.59
MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 MHPNet H-48 0.62
only attention reduce=1 reduce=2 reduce=4 only attention reduce=1 reduce=2 reduce=4 0.59
78.5 78.8 78.8 78.8 78.5 78.8 78.8 78.8 0.45
70.8 74.4 74.0 74.1 70.8 74.4 74.0 74.1 0.45
94.4 94.4 94.4 94.4 94.4 94.4 94.4 94.4 0.45
89.8 90.7 90.1 89.7 89.8 90.7 90.1 89.7 0.45
85.5 85.8 85.6 85.7 85.5 85.8 85.6 85.7 0.45
77.5 80.9 80.3 80.1 77.5 80.9 80.3 80.1 0.45
COCO 83.5 83.6 83.6 83.7 COCO 83.5 83.6 83.6 83.7 0.50
81.4 81.5 81.7 81.6 81.4 81.5 81.7 81.6 0.45
OCHuman 70.9 74.4 74.0 74.1 OCHuman 70.9 74.4 74.0 74.1 0.65
77.9 81.2 80.7 81.0 77.9 81.2 80.7 81.0 0.45
75.3 75.5 75.8 75.5 75.3 75.5 75.8 75.5 0.45
65.7 66.9 63.6 68.4 65.7 66.9 63.6 68.4 0.45
95.8 95.4 95.7 95.5 95.8 95.4 95.7 95.5 0.45
94.2 95.1 94.5 94.4 94.2 95.1 94.5 94.4 0.45
87.5 87.8 87.7 87.5 87.5 87.8 87.7 87.5 0.45
84.2 87.2 86.7 87.0 84.2 87.2 86.7 87.0 0.45
77.8 78.0 78.3 78.0 77.8 78.0 78.3 78.0 0.45
68.6 70.0 68.6 72.9 68.6 70.0 68.6 72.9 0.45
86.7 86.6 86.8 86.8 86.7 86.6 86.8 86.8 0.45
77.9 81.2 80.7 81.0 77.9 81.2 80.7 81.0 0.45
Table 9: We illustrate different ablations of MHAB. 表9:MHABの異なるアブレーションを示します。 0.71
For MHPNet with backbone W48 on resolutoin 384 × 288, we train models with varying capacity for squeeze Fsq and excite Fex operations. resolutoin 384 × 288のbackbone w48を持つmhpnetでは、fsqとexcite fex操作のキャパシティが異なるモデルをトレーニングします。 0.71
When both operations are disabled, and only attention operation Fatn is used within MHAB, we get sub-optimal results on both COCO val (0.3 AP drop) and OCHuman val (3.6 AP drop) datasets (first row of each dataset). 両方の操作が無効になり、mhab内でのみ注意操作fatnが使用される場合、coco val(0.3 ap drop)とochuman val(3.6 ap drop)データセット(各データセットの第1行)の両方で副最適結果が得られる。 0.67
When squeeze and excite operations are employed, we get a good performance boost, especially on the OCHuman val dataset. 特にOCHuman valデータセットでは、圧縮とエキサイティングな操作が採用されている場合、パフォーマンスが向上します。 0.61
All results in the paper employ reduce=4 (bold). 論文のすべての結果は、reduce=4 (bold) を用いる。 0.66
proximity of humans in these images. これらの画像の中の人間の近接。 0.64
Consequently, HRNet picks one dominant person and detects key-points on the same person within both bounding box instances. その結果、hrnetは1人の支配者を選び、両方のバウンディングボックスインスタンス内で同じ人物のキーポイントを検出する。 0.60
In contrast, MHPNet can clearly identify the correct set of keypoints and associate them to the correct human(s) in each example. 対照的に、MHPNetは、キーポイントの正しいセットを明確に識別し、各例の正しい人間に関連付けることができます。 0.75
We especially want to point attention to the cases where people are dancing in tandem, or tackling each other while playing sports. 私たちは特に、人々がタンデムで踊っている、またはスポーツをしながらお互いに取り組むケースに注意を向けたいです。 0.70
Such situations produce extremely complicated occlusions. このような状況は極めて複雑な閉塞を引き起こす。 0.59
However, MHPNet is able to successfully attribute the correct key-points to each human in the input bounding boxes in such situations, highlighting its usefulness in occlusion scenarios. しかし、MHPNetは、このような状況下で入力バウンディングボックス内の各人間に正しいキーポイントを適切にアトリビュートすることができ、閉塞シナリオにおけるその有用性を強調します。 0.63
英語(論文から抽出)日本語訳スコア
Figure 15: Qualitative results of MHPNet. 図15: MHPNetの定性的な結果。 0.83
Each image (left to right) shows input bounding boxes, HRNet predictions and MHPNet predictions. 各画像(左から右)は入力バウンディングボックス、HRNet予測、MHPNet予測を表示する。 0.66
英語(論文から抽出)日本語訳スコア
Figure 16: Qualitative results of MHPNet. 図16: MHPNetの定性的な結果。 0.83
英語(論文から抽出)日本語訳スコア
References [1] Mykhaylo Andriluka, Umar Iqbal, Eldar Insafutdinov, Leonid Pishchulin, Anton Milan, Juergen Gall, and Bernt Schiele. 参照: [1] Mykhaylo Andriluka, Umar Iqbal, Eldar Insafutdinov, Leonid Pishchulin, Anton Milan, Juergen Gall, Bernt Schiele 0.74
Posetrack: A benchmark for human pose estimation and tracking. Posetrack: 人間のポーズ推定とトラッキングのためのベンチマーク。 0.73
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5167–5176, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行の中で、ページ5167-5176、2018。 0.77
2 [2] Mykhaylo Andriluka, Leonid Pishchulin, Peter Gehler, and Bernt Schiele. 2 [2] Mykhaylo Andriluka、Leonid Pishchulin、Peter Gehler、Bernt Schiele。 0.66
2d human pose estimation: New benchmark and state of the art analysis. 2dの人間のポーズ推定: 新しいベンチマークとアート分析の状況。 0.74
In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2014. 2014年6月、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) において。 0.83
2 [3] Z Cao, T Simon, S Wei, and Y Sheikh. 2 [3]Z Cao、T Simon、S Wei、Y Sheikh。 0.75
Realtime multiperson 2d pose estimation using part affinity fields. 部分親和性場を用いた実時間マルチパーソン2次元ポーズ推定 0.57
corr abs/1611.08050. corr abs/1611.08050 0.61
arXiv preprint arXiv:1611.08050, 2016. arXiv preprint arXiv:1611.08050, 2016 0.80
1, 3 [4] Rich Caruana. 1, 3 4]リッチ・カルアナ。 0.66
Multitask learning. Machine learning, マルチタスク学習。 機械学習。 0.68
28(1):41–75, 1997. 28(1):41–75, 1997. 0.88
3 [5] Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, and Jian Sun. 3 [5]Yilun Chen、Zhicheng Wang、Yuxiang Peng、Zhiqiang Zhang、Gang Yu、Jian Sun。 0.77
Cascaded pyramid network for multiIn Proceedings of the IEEE conperson pose estimation. IEEEコンパーソンポーズ推定におけるマルチInプロセッシングのためのカスケードピラミッドネットワーク 0.67
ference on computer vision and pattern recognition, pages 7103–7112, 2018. コンピュータビジョンとパターン認識に関する会議、ページ7103-7112、2018。 0.80
1, 3 [6] Bowen Cheng, Yunchao Wei, Honghui Shi, Rogerio Feris, Jinjun Xiong, and Thomas Huang. 1, 3 [6]Bowen Cheng、Yunchao Wei、Honghui Shi、Rogerio Feris、Jinjun Xiong、Thomas Huang。 0.77
Revisiting rcnn: On awakening the classification power of faster rcnn. rcnnを再訪する:高速rcnnの分類力を目覚めさせる。 0.79
In Proceedings of the European conference on computer vision (ECCV), pages 453–468, 2018. Proceedings of the European Conference on Computer Vision (ECCV) の2018年ページ453-468。 0.80
3 [7] Bowen Cheng, Bin Xiao, Jingdong Wang, Honghui Shi, Thomas S Huang, and Lei Zhang. 3 [7]Bowen Cheng、Bin Xiao、Jingdong Wang、Honghui Shi、Thomas S Huang、Lei Zhang。 0.77
Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. Higherhrnet: ボトムアップ人間のポーズ推定のためのスケールアウェアな表現学習。 0.61
arXiv preprint arXiv:1908.10357, 2019. arXiv preprint arXiv:1908.10357, 2019 0.81
2, 3, 6, 7 2, 3, 6, 7 0.85
[8] Alexey Dosovitskiy and Josip Djolonga. 8] Alexey DosovitskiyとJosip Djolonga。 0.65
You only train once: Loss-conditional training of deep networks. 一度だけトレーニングする: ディープネットワークのロス条件トレーニング。 0.69
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
3 [9] Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, and Cewu Lu. 3 9] Hao-Shu Fang、Shuqin Xie、Yu-Wing Tai、Cewu Lu。 0.79
Rmpe: Regional multi-person pose estimation. Rmpe: 地域のマルチパーソンポーズ推定。 0.70
In Proceedings of the IEEE International Conference on Computer Vision, pages 2334–2343, 2017. The Proceedings of the IEEE International Conference on Computer Vision, pages 2334–2343, 2017 0.86
3 [10] Rıza Alp G¨uler, Natalia Neverova, and Iasonas Kokkinos. 3 10] リュザ・アルプ・g・ジュラー、ナタリア・ネノヴァ、イアソナス・コキノス 0.66
Densepose: Dense human pose estimation in the wild. Densepose: 野生で人間のポーズを推定する。 0.76
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7297–7306, 2018. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ7297-7306、2018。 0.80
2 [11] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross B Girshick. 2 Kaming He, Georgia Gkioxari, Piotr Doll ́ar, Ross B Girshick. 0.75
Mask r-cnn. corr abs/1703.06870 (2017). マスクr-cnn。 corr abs/1703.06870 (2017) 0.64
arXiv preprint arXiv:1703.06870, 2017. arXiv preprint arXiv:1703.06870, 2017 0.79
1, 3 [12] Jie Hu, Li Shen, and Gang Sun. 1, 3 [12]Jie Hu、Li Shen、Gang Sun。 0.74
Squeeze-and-excitati on networks. Squeeze-and-Excitati on Network。 0.49
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 7132–7141, 2018。 0.84
4, 11 [13] Shaoli Huang, Mingming Gong, and Dacheng Tao. 4, 11[13] Shaoli Huang, Mingming Gong, Dacheng Tao。 0.72
A coarsefine network for keypoint localization. キーポイントローカライゼーションのための粗いネットワーク。 0.68
In Proceedings of the IEEE International Conference on Computer Vision, pages 3028–3037, 2017. The Proceedings of the IEEE International Conference on Computer Vision, page 3028–3037, 2017 0.85
1, 3 [14] Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, and Bernt Schiele. 1, 3 14]Eldar Insafutdinov, Leonid Pishchulin, Bjoern Andres, Mykhaylo Andriluka, Bernt Schiele。 0.77
Deepercut: A deeper, stronger, and faster multi-person pose estimation model. Deepercut: より深く、より強く、より高速なマルチパーソンポーズ推定モデル。 0.76
In European Conference on Computer Vision, pages 34–50. 欧州コンピュータビジョン会議』34-50頁。 0.64
Springer, 2016. スプリンガー、2016年。 0.60
3 [15] Umar Iqbal and Juergen Gall. 3 [15]Umar IqbalとJuergen Gall。 0.76
Multi-person pose estimation with local joint-to-person associations. 地域共同組合とのマルチパーソンポーズ推定。 0.55
In European Conference on Computer Vision, pages 627–642. European Conference on Computer Vision』 627–642頁。 0.80
Springer, 2016. スプリンガー、2016年。 0.60
3 [16] Sheng Jin, Wentao Liu, Enze Xie, Wenhai Wang, Chen Qian, Wanli Ouyang, and Ping Luo. 3 16] Sheng Jin、Wentao Liu、Enze Xie、Wenhai Wang、Chen Qian、Wanli Ouyang、Ping Luo。 0.76
Differentiable hierarchical graph grouping for multi-person pose estimation. 多人数ポーズ推定のための微分可能階層グラフグルーピング 0.63
In European Conference on Computer Vision, pages 718–734. 欧州コンピュータビジョン会議 (european conference on computer vision) 718-734頁。 0.64
Springer, 2020. スプリンガー、2020年。 0.59
6, 7 [17] Hanbyul Joo, Hao Liu, Lei Tan, Lin Gui, Bart Nabbe, Iain Matthews, Takeo Kanade, Shohei Nobuhara, and Yaser Sheikh. 6, 7 17]Hanbyul Joo、Hao Liu、Lei Tan、Lin Gui、Bart Nabbe、Iain Matthews、Takeo Kanade、Shohei Nobuhara、Yaser Sheikh。 0.77
Panoptic studio: A massively multiview system for social motion capture. panoptic studio: ソーシャルモーションキャプチャのための巨大なマルチビューシステム。 0.75
In Proceedings of the IEEE International Conference on Computer Vision, pages 3334–3342, 2015. In Proceedings of the IEEE International Conference on Computer Vision, pages 3334–3342, 2015 0.88
2 [18] Iasonas Kokkinos. 2 18] Iasonas Kokkinos。 0.74
Ubernet: Training a universal convolutional neural network for low-, mid-, and high-level vision using diverse datasets and limited memory. Ubernet: 多様なデータセットと限られたメモリを使用して、低、中、高レベルのビジョンのためのユニバーサル畳み込みニューラルネットワークをトレーニングします。 0.58
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6129–6138, 2017. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 6129–6138, 2017 0.84
3 [19] Sven Kreiss, Lorenzo Bertoni, and Alexandre Alahi. 3 [19]Sven Kreiss、Lorenzo Bertoni、Alexandre Alahi。 0.74
Pifpaf: Composite fields for human pose estimation. Pifpaf: 人間のポーズ推定のための複合フィールド。 0.75
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11977–11986, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 11977–11986, 2019。 0.90
1 [20] Jiefeng Li, Can Wang, Hao Zhu, Yihuan Mao, Hao-Shu Fang, and Cewu Lu. 1 [20]Jieefeng Li、Can Wang、Hao Zhu、Yihuan Mao、Hao-Shu Fang、Cewu Lu。 0.79
Crowdpose: Efficient crowded scenes pose estimation and a new benchmark. Crowdpose: 混雑したシーンの効率的なポーズ推定と新しいベンチマーク。 0.64
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10863–10872, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2019年10863-10872ページ。 0.80
1, 2, 3, 4, 7 1, 2, 3, 4, 7 0.85
[21] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. 21] Tsung-Yi Lin、Piotr Doll ́ar、Ross Girshick、Kaming He、Bharath Hariharan、Serge Belongie。 0.67
Feature pyramid networks for object detection. オブジェクト検出のための特徴ピラミッドネットワーク。 0.83
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017. ieee conference on computer vision and pattern recognitionの議事録、2017年2117-2125頁。
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 2117-2125頁、2017年。
0.83
3 [22] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. 3 22] Tsung-Yi Lin、Michael Maire、Serge Belongie、James Hays、Pietro Perona、Deva Ramanan、Piotr Doll ́ar、C Lawrence Zitnick。 0.78
Microsoft coco: Common objects in context. Microsoft coco: コンテキスト内の共通オブジェクト。 0.85
In European conference on computer vision, pages 740–755. コンピュータビジョンに関する欧州会議では、740-755ページ。 0.75
Springer, 2014. 1, 2, 4 2014年春。 1, 2, 4 0.68
[23] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg. [23]Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C Berg。 0.82
Ssd: Single shot multibox detector. Ssd:シングルショットマルチボックス検出器。 0.63
In European conference on computer vision, pages 21–37. コンピュータビジョンに関する欧州会議では、21-37ページ。 0.75
Springer, 2016. スプリンガー、2016年。 0.60
3 [24] Kevis-Kokitsi Maninis, Ilija Radosavovic, and Iasonas Kokkinos. 3 [24]Kevis-Kokitsi Maninis、Ilija Radosavovic、Iasonas Kokkinos。 0.80
Attentive single-tasking of multiple tasks. 複数のタスクの注意深いシングルタスク。 0.66
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851–1860, 2019. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 1851–1860, 2019。 0.90
3 [25] Mehdi Mirza and Simon Osindero. 3 [25] Mehdi MirzaとSimon Osindero。 0.83
Conditional generative adversarial nets. 条件生成 敵のネットだ 0.64
arXiv preprint arXiv:1411.1784, 2014. arXiv preprint arXiv:1411.1784, 2014 0.80
3 [26] Gyeongsik Moon, Ju Yong Chang, and Kyoung Mu Lee. 3 [26] ギョンシク・ムーン、ジュ・ヨン・チャン、キョン・ム・リー。 0.75
Posefix: Model-agnostic general human pose refinement network. Posefix: モデルに依存しない一般的なヒューマンポーズリファインメントネットワーク。 0.67
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7773–7781, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行で、ページ7773-7781、2019。 0.74
7 [27] Alejandro Newell, Zhiao Huang, and Jia Deng. 7 27] Alejandro Newell、Zhiao Huang、およびJia Deng。 0.78
Associative embedding: End-to-end learning for joint detection and grouping. 連想埋め込み: 共同検出とグループ化のためのエンドツーエンド学習。 0.61
In Advances in neural information processing systems, pages 2277–2287, 2017. 神経情報処理システムの進歩、ページ2277-2287、2017。 0.68
1, 3, 5 1, 3, 5 0.85
英語(論文から抽出)日本語訳スコア
[42] Feng Zhang, Xiatian Zhu, Hanbin Dai, Mao Ye, and Ce Zhu. [42]Feng Zhang、Xiatian Zhu、Hanbin Dai、Mao Ye、Ce Zhu。 0.63
Distribution-aware coordinate representation for human pose estimation. ヒトポーズ推定のための分布認識座標表現 0.75
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7093–7102, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 7093–7102, 2020。 0.91
7 [43] Song-Hai Zhang, Ruilong Li, Xin Dong, Paul Rosin, Zixi Cai, Xi Han, Dingcheng Yang, Haozhi Huang, and Shi-Min Hu. 7 43] Song-Hai Zhang、Ruilong Li、Xin Dong、Paul Rosin、Zixi Cai、Xi Han、Dingcheng Yang、Haozhi Huang、Shi-Min Hu。 0.81
Pose2seg: Detection free human instance segmentation. Pose2seg: 検出不要のヒューマンインスタンスセグメンテーション。 0.63
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 889–898, 2019. Proceedings of the IEEE conference on computer vision and pattern recognition, page 889–898, 2019。 0.84
1, 2, 3, 4, 5, 6, 7 1, 2, 3, 4, 5, 6, 7 0.85
[28] Alejandro Newell, Kaiyu Yang, and Jia Deng. [28] Alejandro Newell、Kaiyu Yang、Jia Deng。 0.66
Stacked hourglass networks for human pose estimation. 人間のポーズ推定のための重畳時間ガラスネットワーク 0.63
In European conference on computer vision, pages 483–499. コンピュータビジョンに関する欧州会議で、483-499ページ。 0.79
Springer, 2016. スプリンガー、2016年。 0.60
1, 3, 5 [29] George Papandreou, Tyler Zhu, Liang-Chieh Chen, Spyros Gidaris, Jonathan Tompson, and Kevin Murphy. 1, 3, 5 [29] George Papandreou、Tyler Zhu、Liang-Chieh Chen、Spyros Gidaris、Jonathan Tompson、Kevin Murphy。 0.81
Personlab: Person pose estimation and instance segmentation with a bottom-up, part-based, geometric embedding model. personlab: ボトムアップ、部分ベース、幾何埋め込みモデルによる人物のポーズ推定とインスタンスセグメンテーション。 0.73
In Proceedings of the European Conference on Computer Vision (ECCV), pages 269–286, 2018. Proceedings of the European Conference on Computer Vision (ECCV) では、269-286, 2018。 0.83
1 [30] George Papandreou, Tyler Zhu, Nori Kanazawa, Alexander Toshev, Jonathan Tompson, Chris Bregler, and Kevin Murphy. 1 [30]George Papandreou, Tyler Zhu, Nori Kanazawa, Alexander Toshev, Jonathan Tompson, Chris Bregler, Kevin Murphy。 0.81
Towards accurate multi-person pose estimation in the wild. 野生での正確なマルチパーソンポーズ推定に向けて。 0.54
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4903–4911, 2017. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 4903–4911, 2017 0.72
1, 3 [31] L Pishchulin, E Insafutdinov, S Tang, B Andres, M Andriluka, P Gehler, and Bb Schiele. 1, 3 [31]L Pishchulin, E Insafutdinov, S Tang, B Andres, M Andriluka, P Gehler, Bb Schiele。 0.81
Deepcut: Joint subset partition and labeling for multi person pose estimation. Deepcut: 複数人のポーズ推定のための共同サブセットパーティションとラベリング。 0.78
[arxiv], 2015. [arxiv]、2015年。 0.68
3 [32] Lingteng Qiu, Xuanye Zhang, Yanran Li, Guanbin Li, Xiaojun Wu, Zixiang Xiong, Xiaoguang Han, and Shuguang Cui. 3 [32]Lingteng Qiu、Xuanye Zhang、Yanran Li、Guanbin Li、Xiaojun Wu、Zixiang Xiong、Xiaoguang Han、Shuguang Cui。
訳抜け防止モード: 3 [32 ]Lingteng Qiu,Xuanye Zhang,Yanran Li, Guanbin Li, Xiaojun Wu, Zixiang Xiong, Xiaoguang Han シュガン・クイ(Shuguang Cui)。
0.85
Peeking into occluded joints: A novel framework for crowd pose estimation. 閉鎖された関節を覗き込む:群衆ポーズ推定のための新しいフレームワーク。 0.63
arXiv preprint arXiv:2003.10506, 2020. arXiv preprint arXiv:2003.10506, 2020 0.81
2 [33] Joseph Redmon and Ali Farhadi. 2 [33] Joseph RedmonとAli Farhadi。 0.80
Yolov3: An incremental Yolov3: インクリメンタル 0.73
improvement. arXiv preprint arXiv:1804.02767, 2018. 改善だ arXiv preprint arXiv:1804.02767, 2018 0.74
3 [34] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 3 [34] Shaoqing Ren、Kaming He、Ross Girshick、Jian Sun。 0.75
Faster r-cnn: Towards real-time object detection with region proposal networks. Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。 0.69
In Advances in neural information processing systems, pages 91–99, 2015. 神経情報処理システムの進歩, 91-99, 2015 ページ。 0.74
2, 3, 4 [35] Matteo Ruggero Ronchi and Pietro Perona. 2, 3, 4 35] Matteo Ruggero RonchiとPietro Perona。 0.77
Supplementary materials for the iccv 2017 paper: Benchmarking and error diagnosis in multi-instance pose estimation. iccv 2017論文の補足資料:マルチインスタンスポーズ推定におけるベンチマークと誤り診断 0.73
3 [36] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. 3 [36]Ke Sun、Bin Xiao、Dong Liu、Jingdong Wang。 0.77
Deep highresolution representation learning for human pose estimation. ヒトポーズ推定のための深度高分解能表現学習 0.71
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5693–5703, 2019. Proceedings of the IEEE conference on computer vision and pattern recognition, page 5693–5703, 2019。 0.84
1, 2, 3, 4, 5, 7, 9 1, 2, 3, 4, 5, 7, 9 0.85
[37] Xiao Sun, Jiaxiang Shang, Shuang Liang, and Yichen Wei. [37] Xiao Sun、Jiaxiang Shang、Shuang Liang、Yichen Wei。 0.67
Compositional human pose regression. 構成人間のポーズ回帰。 0.70
In Proceedings of the IEEE International Conference on Computer Vision, pages 2602–2611, 2017. In Proceedings of the IEEE International Conference on Computer Vision, pages 2602–2611, 2017 0.86
1 [38] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al. 1 38] Jingdong Wang、Ke Sun、Tianheng Cheng、Borui Jiang、Chaorui Deng、Yang Zhao、Dong Liu、Yadong Mu、Mingkui Tan、Xinggang Wang、等。 0.76
Deep high-resolution representation learning for visual recognition. 視覚認識のための高分解能表現学習 0.77
IEEE transactions on pattern analysis and machine intelligence, 2020. パターン分析とマシンインテリジェンスに関するIEEEトランザクション、2020。 0.71
1 [39] Bin Xiao, Haiping Wu, and Yichen Wei. 1 39] Bin Xiao、Haping Wu、Yichen Wei。 0.73
Simple baselines for human pose estimation and tracking. 人間のポーズ推定と追跡のためのシンプルなベースライン。 0.67
In Proceedings of the European conference on computer vision (ECCV), pages 466–481, 2018. Proceedings of the European Conference on Computer Vision (ECCV) で、2018年466-481頁。 0.79
1, 2, 3, 4, 5, 6, 9 1, 2, 3, 4, 5, 6, 9 0.85
[40] Makoto Yamada, Leonid Sigal, and Michalis Raptis. 山田誠(やまだまこと)、レオニド・シガル(Leonid Sigal)、ミカリス・ラプティス(Michalis Raptis)。 0.48
No bias left behind: Covariate shift adaptation for discriminative 3d pose estimation. 偏見は残らない:識別的3dポーズ推定のための共変シフト適応。 0.67
In European Conference on Computer Vision, pages 674–687. European Conference on Computer Vision』 674-687頁。 0.80
Springer, 2012. 3 [41] Amir R Zamir, Alexander Sax, William Shen, Leonidas J Guibas, Jitendra Malik, and Silvio Savarese. 2012年春。 3 41] Amir R Zamir、Alexander Sax、William Shen、Leonidas J Guibas、Jitendra Malik、Silvio Savarese。 0.67
Taskonomy: Disentangling task transfer learning. taskonomy: タスク転送学習の分離。 0.75
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3712–3722, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 3712–3722, 2018。 0.84
3 3 0.85
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。