論文の概要: EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search
- arxiv url: http://arxiv.org/abs/2012.07086v1
- Date: Sun, 13 Dec 2020 15:38:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 12:43:34.488263
- Title: EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search
- Title(参考訳): EfficientPose: ニューラルネットワークによる効率的な人文推定
- Authors: Wenqiang Zhang, Jiemin Fang, Xinggang Wang, Wenyu Liu
- Abstract要約: 効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
- 参考スコア(独自算出の注目度): 47.30243595690131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation from image and video is a vital task in many multimedia
applications. Previous methods achieve great performance but rarely take
efficiency into consideration, which makes it difficult to implement the
networks on resource-constrained devices. Nowadays real-time multimedia
applications call for more efficient models for better interactions. Moreover,
most deep neural networks for pose estimation directly reuse the networks
designed for image classification as the backbone, which are not yet optimized
for the pose estimation task. In this paper, we propose an efficient framework
targeted at human pose estimation including two parts, the efficient backbone
and the efficient head. By implementing the differentiable neural architecture
search method, we customize the backbone network design for pose estimation and
reduce the computation cost with negligible accuracy degradation. For the
efficient head, we slim the transposed convolutions and propose a spatial
information correction module to promote the performance of the final
prediction. In experiments, we evaluate our networks on the MPII and COCO
datasets. Our smallest model has only 0.65 GFLOPs with 88.1% PCKh@0.5 on MPII
and our large model has only 2 GFLOPs while its accuracy is competitive with
the state-of-the-art large model, i.e., HRNet with 9.5 GFLOPs.
- Abstract(参考訳): 画像とビデオからの人間のポーズ推定は多くのマルチメディアアプリケーションにおいて重要な課題である。
従来の手法では性能は高いが,効率を考慮に入れることはめったにないため,資源制約されたデバイス上でのネットワークの実装が困難である。
現在、リアルタイムマルチメディアアプリケーションはより良いインタラクションのためのより効率的なモデルを求めています。
さらに、ポーズ推定のためのほとんどのディープニューラルネットワークは、画像分類用に設計されたネットワークを直接バックボーンとして再利用する。
本稿では,効率的なバックボーンと効率的なヘッドの2つの部分を含む人間のポーズ推定を目的とした効率的なフレームワークを提案する。
本稿では,ニューラルネットワーク探索法の実装により,ポーズ推定のためのバックボーンネットワーク設計をカスタマイズし,精度を損なうことなく計算コストを削減する。
効率のよい頭部では,変換された畳み込みをスリムにし,最終予測の性能向上のための空間情報補正モジュールを提案する。
実験では,MPIIおよびCOCOデータセットを用いたネットワークの評価を行った。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5を持つ0.65 GFLOPしか持たず、我々の大きなモデルは2 GFLOPしか持たず、その精度は最先端の大規模モデル、すなわち9.5 GFLOPを持つHRNetと競合する。
関連論文リスト
- EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Accelerating Multi-Objective Neural Architecture Search by Random-Weight
Evaluation [24.44521525130034]
我々は,CNNの品質を定量化するために,RWE(Random-Weight Evaluation)と呼ばれる新しい性能評価指標を導入する。
RWEは最後の層のみをトレーニングし、残りの層をランダムに重み付けする。
提案手法は,2つの実世界の探索空間における最先端性能を持つ効率的なモデルの集合を求める。
論文 参考訳(メタデータ) (2021-10-08T06:35:20Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - EvoPose2D: Pushing the Boundaries of 2D Human Pose Estimation using
Accelerated Neuroevolution with Weight Transfer [82.28607779710066]
生物進化にインスパイアされたニューラル・アーキテクチャー・サーチの一形態であるニューラル・エボリューションの2次元ヒューマン・ポーズ・ネットワークの設計への応用について検討する。
本手法は,最先端の手設計ネットワークよりも効率的かつ高精度なネットワーク設計を実現する。
論文 参考訳(メタデータ) (2020-11-17T05:56:16Z) - Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in
Image Classification [46.885260723836865]
ディープ畳み込みニューラルネットワーク (Deep Convolutional Neural Network, CNN) は、高解像度画像で処理することで一般的に改善される。
画像中のすべての領域がタスク関連であるとは限らないという事実に着想を得て,効率的な画像分類を行う新しいフレームワークを提案する。
我々のフレームワークは、最先端の軽量CNNの多くと互換性があり、汎用的で柔軟です。
論文 参考訳(メタデータ) (2020-10-11T17:55:06Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - EfficientPose: Scalable single-person pose estimation [3.325625311163864]
一人称ポーズ推定のための新しい畳み込みニューラルネットワークアーキテクチャであるEfficientPoseを提案する。
我々のトップパフォーマンスモデルは、低複雑さのConvNetを用いて、シングルパーソンMPIIにおける最先端の精度を実現する。
複雑さと効率が低いため、EfficientPoseはメモリフットプリントと計算コストを制限し、エッジデバイス上の現実世界のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-25T16:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。