論文の概要: Joint Coordinate Regression and Association For Multi-Person Pose Estimation, A Pure Neural Network Approach
- arxiv url: http://arxiv.org/abs/2307.01004v2
- Date: Fri, 19 Apr 2024 08:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 20:36:15.270629
- Title: Joint Coordinate Regression and Association For Multi-Person Pose Estimation, A Pure Neural Network Approach
- Title(参考訳): ニューラルネットによる複数パーソンポーズ推定の協調的回帰と関連性
- Authors: Dongyang Yu, Yunshi Xie, Wangpeng An, Li Zhang, Yufeng Yao,
- Abstract要約: 我々は、JCRA(Joint Coordinate Regression and Association)として知られる、新しい1段階から2Dポーズ推定アルゴリズムを導入する。
提案アルゴリズムは高速,高精度,有効,シンプルであり,一段階のエンドツーエンドネットワークアーキテクチャはJCRAの推論速度を大幅に向上させる。
MS COCOとCrowdPoseベンチマークの大規模な実験により、JCRAは精度と効率の両方において最先端のアプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 3.7878984912613256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel one-stage end-to-end multi-person 2D pose estimation algorithm, known as Joint Coordinate Regression and Association (JCRA), that produces human pose joints and associations without requiring any post-processing. The proposed algorithm is fast, accurate, effective, and simple. The one-stage end-to-end network architecture significantly improves the inference speed of JCRA. Meanwhile, we devised a symmetric network structure for both the encoder and decoder, which ensures high accuracy in identifying keypoints. It follows an architecture that directly outputs part positions via a transformer network, resulting in a significant improvement in performance. Extensive experiments on the MS COCO and CrowdPose benchmarks demonstrate that JCRA outperforms state-of-the-art approaches in both accuracy and efficiency. Moreover, JCRA demonstrates 69.2 mAP and is 78\% faster at inference acceleration than previous state-of-the-art bottom-up algorithms. The code for this algorithm will be publicly available.
- Abstract(参考訳): 本稿では,JCRA(Joint Coordinate Regression and Association)と呼ばれる,1段階から2Dのポーズ推定アルゴリズムを提案する。
提案アルゴリズムは高速,高精度,有効,シンプルである。
ワンステージのエンドツーエンドネットワークアーキテクチャは、JCRAの推論速度を大幅に改善する。
一方、エンコーダとデコーダの両方の対称ネットワーク構造を考案し、キーポイントの同定に高い精度を確保した。
これは、トランスネットワークを介して部分位置を直接出力するアーキテクチャに従っており、結果としてパフォーマンスが大幅に向上する。
MS COCOとCrowdPoseベンチマークの大規模な実験により、JCRAは精度と効率の両方において最先端のアプローチよりも優れていることが示された。
さらに、JCRAは69.2 mAPを示し、従来の最先端ボトムアップアルゴリズムよりも78倍高速である。
このアルゴリズムのコードは公開されます。
関連論文リスト
- Simple Contrastive Graph Clustering [41.396185271303956]
既存の手法を改善するための単純なコントラストグラフクラスタリング(SCGC)アルゴリズムを提案する。
我々のアルゴリズムは、最近のコントラストの高いディープクラスタリング競合よりも、平均して7倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-05-11T06:45:19Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - Landmark Regularization: Ranking Guided Super-Net Training in Neural
Architecture Search [70.57382341642418]
重量共有は、コモディティハードウェア上での検索を可能にするため、ニューラルネットワークアーキテクチャ検索のデファクトスタンダードとなっています。
近年の研究では、スタンドアロンアーキテクチャのパフォーマンスと対応する共有重み付きネットワークのパフォーマンスのランキング障害が実証されている。
本稿では,共有重みネットワークの性能ランキングとスタンドアロンアーキテクチャのパフォーマンスランキングの相関を最大化することを目的とした正規化用語を提案する。
論文 参考訳(メタデータ) (2021-04-12T09:32:33Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - EQ-Net: A Unified Deep Learning Framework for Log-Likelihood Ratio
Estimation and Quantization [25.484585922608193]
EQ-Netは,データ駆動手法を用いてログ類似度(LLR)推定と量子化の両課題を解決する,最初の包括的フレームワークである。
広範な実験評価を行い,両タスクにおいて単一アーキテクチャが最先端の成果を達成できることを実証する。
論文 参考訳(メタデータ) (2020-12-23T18:11:30Z) - Multi-objective Neural Architecture Search with Almost No Training [9.93048700248444]
本稿ではRWE(Random-Weight Evaluation)という,ネットワークアーキテクチャの性能を迅速に評価する手法を提案する。
RWEは、アーキテクチャを評価するための計算コストを数時間から秒に短縮する。
進化的多目的アルゴリズムに統合されると、RWEはCIFAR-10上で2時間以内で1枚のGPUカードを検索し、最先端の性能を持つ効率的なアーキテクチャの集合を得る。
論文 参考訳(メタデータ) (2020-11-27T07:39:17Z) - Temporal Attention-Augmented Graph Convolutional Network for Efficient
Skeleton-Based Human Action Recognition [97.14064057840089]
グラフネットワーク(GCN)はユークリッド以外のデータ構造をモデル化するのに非常に成功した。
ほとんどのGCNベースのアクション認識手法は、計算量の多いディープフィードフォワードネットワークを使用して、全てのスケルトンをアクションで処理する。
本稿では,骨格に基づく行動認識の効率を高めるための時間的アテンションモジュール(TAM)を提案する。
論文 参考訳(メタデータ) (2020-10-23T08:01:55Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z) - Cyclic Differentiable Architecture Search [99.12381460261841]
微分可能なArchiTecture Search(DARTS)は、ニューラルアーキテクチャサーチにおいて大きな注目を集めている。
我々はCDARTSと呼ばれる新しい共同目標と新しい周期微分可能なArchiTecture Searchフレームワークを提案する。
DARTS検索の分野では、CIFAR10で97.52%、ImageNetで76.3%、トップ1で76.3%の精度を達成した。
論文 参考訳(メタデータ) (2020-06-18T17:55:19Z) - Learning Robust Feature Representations for Scene Text Detection [0.0]
本稿では、条件付きログを最大化するために、損失から導かれるネットワークアーキテクチャを提案する。
潜伏変数の層を複数の層に拡張することで、ネットワークは大規模に堅牢な機能を学ぶことができる。
実験では,提案アルゴリズムはリコール法と精度の両面で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2020-05-26T01:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。