論文の概要: Lighter Stacked Hourglass Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2107.13643v1
- Date: Wed, 28 Jul 2021 21:05:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 23:29:28.638953
- Title: Lighter Stacked Hourglass Human Pose Estimation
- Title(参考訳): 軽量な砂時計のポーズ推定
- Authors: Ahmed Elhagry, Mohamed Saeed, Musie Araia
- Abstract要約: 我々はNewellらによって提案された人間のポーズ推定の深層学習に基づくアプローチの1つに焦点をあてる。
彼らのアプローチは多くの応用で広く使われており、この分野で最も優れた作品の1つと考えられている。
本研究では,アーキテクチャ変更がネットワークの計算速度と精度に与える影響について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human pose estimation (HPE) is one of the most challenging tasks in computer
vision as humans are deformable by nature and thus their pose has so much
variance. HPE aims to correctly identify the main joint locations of a single
person or multiple people in a given image or video. Locating joints of a
person in images or videos is an important task that can be applied in action
recognition and object tracking. As have many computer vision tasks, HPE has
advanced massively with the introduction of deep learning to the field. In this
paper, we focus on one of the deep learning-based approaches of HPE proposed by
Newell et al., which they named the stacked hourglass network. Their approach
is widely used in many applications and is regarded as one of the best works in
this area. The main focus of their approach is to capture as much information
as it can at all possible scales so that a coherent understanding of the local
features and full-body location is achieved. Their findings demonstrate that
important cues such as orientation of a person, arrangement of limbs, and
adjacent joints' relative location can be identified from multiple scales at
different resolutions. To do so, they makes use of a single pipeline to process
images in multiple resolutions, which comprises a skip layer to not lose
spatial information at each resolution. The resolution of the images stretches
as lower as 4x4 to make sure that a smaller spatial feature is included. In
this study, we study the effect of architectural modifications on the
computational speed and accuracy of the network.
- Abstract(参考訳): 人間のポーズ推定 (human pose estimation, hpe) は、人間が自然によって変形できるため、コンピュータビジョンにおいて最も困難なタスクの一つである。
HPEは、特定の画像やビデオの中で、一人または複数の人の主要な関節位置を正しく識別することを目的としている。
画像やビデオの中の人物の関節の位置を特定することは、アクション認識やオブジェクト追跡に応用できる重要なタスクである。
多くのコンピュータビジョンタスクと同様に、HPEはこの分野にディープラーニングを導入して大きく進歩した。
本稿では,Newellらによって提案されたHPEの深層学習に基づくアプローチの1つに焦点をあてる。
彼らのアプローチは多くのアプリケーションで広く使われており、この分野で最高の作品の1つと考えられている。
アプローチの主な焦点は、あらゆるスケールで可能な限り多くの情報をキャプチャして、局所的な特徴と全体位置の一貫性のある理解を実現することである。
これらの結果から, 人の方向, 手足の配置, 隣り合う関節の相対位置などの重要な手がかりを, 異なる解像度で複数の尺度から同定できることが示唆された。
そのため、複数の解像度で画像を処理するために単一のパイプラインを使用し、各解像度で空間情報が失われないようにスキップ層を含む。
画像の解像度は4x4まで小さくなり、より小さな空間的特徴を含むことが確かめられる。
本研究では,アーキテクチャ変更がネットワークの計算速度と精度に与える影響について検討する。
関連論文リスト
- Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - Parameter-Inverted Image Pyramid Networks [49.35689698870247]
Inverted Image Pyramid Networks (PIIP) と呼ばれる新しいネットワークアーキテクチャを提案する。
私たちの中核となる考え方は、パラメータサイズの異なるモデルを使用して、画像ピラミッドの解像度の異なるレベルを処理することです。
PIIPは、オブジェクト検出、セグメンテーション、画像分類などのタスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - Scale Normalized Image Pyramids with AutoFocus for Object Detection [75.71320993452372]
スケール正規化画像ピラミッド(SNIP)が生成され、人間の視覚と同様に、異なるスケールで固定されたサイズ範囲内のオブジェクトにのみ参加する。
本研究では,オブジェクトを含む可能性のある固定サイズのサブリージョンのみで動作する,効率的な空間サブサンプリング手法を提案する。
結果のアルゴリズムはAutoFocusと呼ばれ、SNIPを使用する場合の推論では2.5~5倍のスピードアップとなる。
論文 参考訳(メタデータ) (2021-02-10T18:57:53Z) - Gravitational Models Explain Shifts on Human Visual Attention [80.76475913429357]
視覚的注意(英: visual attention)とは、人間の脳が優先的な処理のために関連する感覚情報を選択する能力を指す。
過去30年間に様々な評価方法が提案されてきた。
注意変動を記述するための重力モデル(GRAV)を提案する。
論文 参考訳(メタデータ) (2020-09-15T10:12:41Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Human Pose Estimation on Privacy-Preserving Low-Resolution Depth Images [2.8802646903517957]
HPE(Human pose Estimation)は、オペレーティングルーム(OR)内でAIベースのコンテキスト認識システムを開発するための重要なビルディングブロックである。
低解像度のプライバシー保護画像のみを使用できることは、これらの懸念に対処する。
マルチスケールの超解像ネットワークと2次元のポーズ推定ネットワークを統合するエンド・ツー・エンドのソリューションを提案する。
論文 参考訳(メタデータ) (2020-07-16T14:03:52Z) - Towards Dense People Detection with Deep Learning and Depth images [9.376814409561726]
本稿では,1つの深度画像から複数の人物を検出するDNNシステムを提案する。
我々のニューラルネットワークは深度画像を処理し、画像座標の確率マップを出力する。
我々は、この戦略が効果的であることを示し、トレーニング中に使用するものと異なるシーンで動作するように一般化したネットワークを創出する。
論文 参考訳(メタデータ) (2020-07-14T16:43:02Z) - Simple Multi-Resolution Representation Learning for Human Pose
Estimation [2.1904965822605433]
ディープラーニングの発展により,人間のキーポイント予測の精度が向上する。
本稿では,人間のキーポイント予測のためのマルチレゾリューション表現学習と呼ばれる新しいネットワーク構造を提案する。
私たちのアーキテクチャはシンプルで効果的で、優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-04-14T09:03:16Z) - Learning Depth With Very Sparse Supervision [57.911425589947314]
本稿では, 環境との相互作用を通じて, 知覚が世界の3次元特性と結合するという考えを考察する。
我々は、環境と対話するロボットが利用できるような、特殊なグローバルローカルネットワークアーキテクチャを訓練する。
いくつかのデータセットの実験では、画像ピクセルの1つでも基底真理が利用できる場合、提案されたネットワークは、最先端のアプローチよりも22.5%の精度でモノクロの深度推定を学習できることを示している。
論文 参考訳(メタデータ) (2020-03-02T10:44:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。