論文の概要: FasterPose: A Faster Simple Baseline for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2107.03215v1
- Date: Wed, 7 Jul 2021 13:39:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 14:02:39.206019
- Title: FasterPose: A Faster Simple Baseline for Human Pose Estimation
- Title(参考訳): fasterpose: 人間のポーズ推定のための簡単なベースライン
- Authors: Hanbin Dai, Hailin Shi, Wu Liu, Linfang Wang, Yinglu Liu and Tao Mei
- Abstract要約: 本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
- 参考スコア(独自算出の注目度): 65.8413964785972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of human pose estimation depends on the spatial accuracy of
keypoint localization. Most existing methods pursue the spatial accuracy
through learning the high-resolution (HR) representation from input images. By
the experimental analysis, we find that the HR representation leads to a sharp
increase of computational cost, while the accuracy improvement remains marginal
compared with the low-resolution (LR) representation. In this paper, we propose
a design paradigm for cost-effective network with LR representation for
efficient pose estimation, named FasterPose. Whereas the LR design largely
shrinks the model complexity, yet how to effectively train the network with
respect to the spatial accuracy is a concomitant challenge. We study the
training behavior of FasterPose, and formulate a novel regressive cross-entropy
(RCE) loss function for accelerating the convergence and promoting the
accuracy. The RCE loss generalizes the ordinary cross-entropy loss from the
binary supervision to a continuous range, thus the training of pose estimation
network is able to benefit from the sigmoid function. By doing so, the output
heatmap can be inferred from the LR features without loss of spatial accuracy,
while the computational cost and model size has been significantly reduced.
Compared with the previously dominant network of pose estimation, our method
reduces 58% of the FLOPs and simultaneously gains 1.3% improvement of accuracy.
Extensive experiments show that FasterPose yields promising results on the
common benchmarks, i.e., COCO and MPII, consistently validating the
effectiveness and efficiency for practical utilization, especially the
low-latency and low-energy-budget applications in the non-GPU scenarios.
- Abstract(参考訳): 人間のポーズ推定の性能は、キーポイント位置の空間的精度に依存する。
既存の手法の多くは、入力画像から高分解能(HR)表現を学習することで空間精度を追求している。
実験により,HR表現は計算コストの急激な増加につながるが,精度の向上は低分解能(LR)表現と比較して限界であることがわかった。
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
LR設計はモデルの複雑さを大幅に縮小するが、空間的精度に関してネットワークを効果的に訓練する方法は相反する課題である。
本稿では,FasterPoseのトレーニング行動について検討し,収束を加速し,精度を高めるための新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
RCE損失は二項監督から連続範囲への通常のクロスエントロピー損失を一般化するので、ポーズ推定ネットワークのトレーニングはシグモイド関数の恩恵を受けることができる。
これにより、空間的精度を損なうことなくLR特徴から出力ヒートマップを推定でき、計算コストとモデルサイズは大幅に削減された。
従来主流であったポーズ推定ネットワークと比較して,フラップの58%を削減し,精度を1.3%向上させた。
大規模な実験により、FasterPoseは共通のベンチマーク、すなわちCOCOとMPIIで有望な結果をもたらすことが示され、特に非GPUシナリオにおける低レイテンシおよび低エネルギー予算のアプリケーションの有効性と効率を一貫して検証している。
関連論文リスト
- Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Enabling Retrain-free Deep Neural Network Pruning using Surrogate
Lagrangian Relaxation [2.691929135895278]
サロゲート・ラグランジアン・リラクゼーション(SLR)に基づく体系的な軽量化最適化手法を開発。
SLRは、同じ精度で最先端技術よりも高い圧縮率を達成する。
再学習の予算が限られているため,本手法はモデル精度を迅速に回復する。
論文 参考訳(メタデータ) (2020-12-18T07:17:30Z) - EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search [47.30243595690131]
効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
論文 参考訳(メタデータ) (2020-12-13T15:38:38Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - EfficientPose: Scalable single-person pose estimation [3.325625311163864]
一人称ポーズ推定のための新しい畳み込みニューラルネットワークアーキテクチャであるEfficientPoseを提案する。
我々のトップパフォーマンスモデルは、低複雑さのConvNetを用いて、シングルパーソンMPIIにおける最先端の精度を実現する。
複雑さと効率が低いため、EfficientPoseはメモリフットプリントと計算コストを制限し、エッジデバイス上の現実世界のアプリケーションを可能にする。
論文 参考訳(メタデータ) (2020-04-25T16:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。