論文の概要: Simple Multi-Resolution Representation Learning for Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2004.06366v2
- Date: Fri, 22 Jan 2021 06:01:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 10:09:12.546347
- Title: Simple Multi-Resolution Representation Learning for Human Pose
Estimation
- Title(参考訳): ポーズ推定のための簡易マルチレゾリューション表現学習
- Authors: Trung Q. Tran, Giang V. Nguyen, Daeyoung Kim
- Abstract要約: ディープラーニングの発展により,人間のキーポイント予測の精度が向上する。
本稿では,人間のキーポイント予測のためのマルチレゾリューション表現学習と呼ばれる新しいネットワーク構造を提案する。
私たちのアーキテクチャはシンプルで効果的で、優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 2.1904965822605433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human pose estimation - the process of recognizing human keypoints in a given
image - is one of the most important tasks in computer vision and has a wide
range of applications including movement diagnostics, surveillance, or
self-driving vehicle. The accuracy of human keypoint prediction is increasingly
improved thanks to the burgeoning development of deep learning. Most existing
methods solved human pose estimation by generating heatmaps in which the ith
heatmap indicates the location confidence of the ith keypoint. In this paper,
we introduce novel network structures referred to as multi-resolution
representation learning for human keypoint prediction. At different resolutions
in the learning process, our networks branch off and use extra layers to learn
heatmap generation. We firstly consider the architectures for generating the
multi-resolution heatmaps after obtaining the lowest-resolution feature maps.
Our second approach allows learning during the process of feature extraction in
which the heatmaps are generated at each resolution of the feature extractor.
The first and second approaches are referred to as multi-resolution heatmap
learning and multi-resolution feature map learning respectively. Our
architectures are simple yet effective, achieving good performance. We
conducted experiments on two common benchmarks for human pose estimation:
MSCOCO and MPII dataset. The code is made publicly available at
https://github.com/tqtrunghnvn/SimMRPose.
- Abstract(参考訳): 人間のポーズ推定 - 与えられた画像内の人間のキーポイントを認識するプロセス - は、コンピュータビジョンにおいて最も重要なタスクの1つであり、運動診断、監視、自動運転車など幅広い応用がある。
深層学習の発展により,人間のキーポイント予測の精度が向上している。
既存の方法では、ithヒートマップがithキーポイントの位置信頼度を示すヒートマップを生成することで、人間のポーズ推定を解いた。
本稿では,人間のキーポイント予測のためのマルチレゾリューション表現学習と呼ばれる新しいネットワーク構造を提案する。
学習プロセスの異なる解像度で、ネットワークは分岐し、余分なレイヤを使ってヒートマップ生成を学びます。
まず,低分解能特徴写像から多分解能熱マップを生成するアーキテクチャについて考察する。
第2のアプローチは,特徴抽出器の各解像度で熱マップを生成する特徴抽出過程における学習を可能にする。
第1と第2のアプローチは、それぞれマルチレゾリューションヒートマップ学習とマルチレゾリューション機能マップ学習と呼ばれる。
私たちのアーキテクチャはシンプルかつ効果的で、優れたパフォーマンスを実現しています。
MSCOCOとMPIIデータセットという,人間のポーズ推定のための2つの一般的なベンチマーク実験を行った。
コードはhttps://github.com/tqtrunghnvn/SimMRPoseで公開されている。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Two Approaches to Supervised Image Segmentation [55.616364225463066]
本研究は、深層学習とマルチセットニューロンのアプローチの比較実験を開発する。
ディープラーニングアプローチは、画像セグメンテーションの実行の可能性を確認した。
代替のマルチセット手法では、計算資源をほとんど必要とせずに精度を向上することができた。
論文 参考訳(メタデータ) (2023-07-19T16:42:52Z) - Learning Structure-Guided Diffusion Model for 2D Human Pose Estimation [71.24808323646167]
ニューラルネットワークを用いてキーポイントのヒートマップを学習するための新しいスキームである textbfDiffusionPose を提案する。
トレーニング中、キーポイントはノイズを加えることでランダム分布に拡散され、拡散モデルはノイズ付きヒートマップから地中構造熱マップを復元する。
実験では、広く使用されているCOCO、CrowdPose、AI Challengeデータセット上で1.6、1.2、1.2mAPの改善による、私たちのスキームの長所が示されている。
論文 参考訳(メタデータ) (2023-06-29T16:24:32Z) - 2D Human Pose Estimation with Explicit Anatomical Keypoints Structure
Constraints [15.124606575017621]
本稿では,解剖学的キーポイント構造制約を明示した新しい2次元ポーズ推定手法を提案する。
提案手法は,既存のボトムアップやトップダウンの人間のポーズ推定手法に組み込むことができる。
提案手法は,既存のボトムアップとトップダウンの人間のポーズ推定手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-12-05T11:01:43Z) - Virtual Multi-Modality Self-Supervised Foreground Matting for
Human-Object Interaction [18.14237514372724]
本稿では,仮想マルチモーダル・フォアグラウンド・マッティング(VMFM)手法を提案する。
VMFMメソッドはトリマップや既知のバックグラウンドなどの追加入力を必要としない。
我々は,前景マッティングを自己監督型マルチモーダリティ問題として再構成する。
論文 参考訳(メタデータ) (2021-10-07T09:03:01Z) - Accurate Grid Keypoint Learning for Efficient Video Prediction [87.71109421608232]
キーポイントベースのビデオ予測手法は、トレーニングやデプロイメントにおいて、かなりの計算資源を消費することができる。
本稿では,長期的効率的な映像予測のための頑健で説明可能な中間キーポイント表現を目的とした,新しいグリッドキーポイント学習フレームワークを設計する。
提案手法は,計算資源の98%以上を節約しつつ,最先端のビデオ予測手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-28T05:04:30Z) - DenserNet: Weakly Supervised Visual Localization Using Multi-scale
Feature Aggregation [7.2531609092488445]
画像表現の異なる意味レベルで特徴マップを集約する畳み込みニューラルネットワークアーキテクチャを開発する。
第二に、我々のモデルは、正および負のGPSタグ付き画像対以外の画素レベルのアノテーションなしで、エンドツーエンドで訓練されている。
第3に、アーキテクチャが計算中に特徴やパラメータを共有しているため、計算効率がよい。
論文 参考訳(メタデータ) (2020-12-04T02:16:47Z) - Towards Keypoint Guided Self-Supervised Depth Estimation [0.0]
入力画像の集合から深度マップ推定を学習するために,キーポイントを自己スーパービジョンの手がかりとして利用する。
キーポイント抽出手法を使わずに深度モデルを学習することにより,キーポイントを用いて深度推定学習を改善することを示す。
論文 参考訳(メタデータ) (2020-11-05T20:45:03Z) - Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement [54.29252286561449]
グラフPCNNと呼ばれる2段階のグラフベースおよびモデルに依存しないフレームワークを提案する。
第1段階では、粗局化結果を得るために熱マップ回帰ネットワークを適用し、ガイドポイントと呼ばれる一連の提案キーポイントをサンプリングする。
第2段階では、各案内点について、ローカライゼーションにより異なる視覚特徴を抽出する。
ガイドされた点間の関係は、より正確なローカライゼーション結果を得るためにグラフポーズ精製モジュールによって探索される。
論文 参考訳(メタデータ) (2020-07-21T04:59:15Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。