論文の概要: RealHePoNet: a robust single-stage ConvNet for head pose estimation in
the wild
- arxiv url: http://arxiv.org/abs/2011.01890v1
- Date: Tue, 3 Nov 2020 18:09:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 04:00:18.213148
- Title: RealHePoNet: a robust single-stage ConvNet for head pose estimation in
the wild
- Title(参考訳): RealHePoNet: 野生における頭部ポーズ推定のための堅牢なシングルステージConvNet
- Authors: Rafael Berral-Soler, Francisco J. Madrid-Cuevas, Rafael
Mu\~noz-Salinas, Manuel J. Mar\'in-Jim\'enez
- Abstract要約: 画像中の人間の頭ポーズ推定は、人-コンピュータインタラクションやビデオ監視タスクなど、多くの分野で応用されている。
本研究では,垂直(チルト/ピッチ)角度と水平(パン/ヨー)角度の両方を推定する問題に対処する。
我々のモデルは、"Pointing'04"と"Annotated Facial Landmarks in the Wild"の2つのデータセットの組み合わせによって訓練されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human head pose estimation in images has applications in many fields such as
human-computer interaction or video surveillance tasks. In this work, we
address this problem, defined here as the estimation of both vertical
(tilt/pitch) and horizontal (pan/yaw) angles, through the use of a single
Convolutional Neural Network (ConvNet) model, trying to balance precision and
inference speed in order to maximize its usability in real-world applications.
Our model is trained over the combination of two datasets: 'Pointing'04'
(aiming at covering a wide range of poses) and 'Annotated Facial Landmarks in
the Wild' (in order to improve robustness of our model for its use on
real-world images). Three different partitions of the combined dataset are
defined and used for training, validation and testing purposes. As a result of
this work, we have obtained a trained ConvNet model, coined RealHePoNet, that
given a low-resolution grayscale input image, and without the need of using
facial landmarks, is able to estimate with low error both tilt and pan angles
(~4.4{\deg} average error on the test partition). Also, given its low inference
time (~6 ms per head), we consider our model usable even when paired with
medium-spec hardware (i.e. GTX 1060 GPU). * Code available at:
https://github.com/rafabs97/headpose_final * Demo video at:
https://www.youtube.com/watch?v=2UeuXh5DjAE
- Abstract(参考訳): 画像中の人間の頭ポーズ推定は、人-コンピュータインタラクションやビデオ監視タスクなど、多くの分野で応用されている。
本研究では,1つの畳み込みニューラルネットワーク(ConvNet)モデルを用いて,垂直(チルト/ピッチ)角度と水平(パン/ヨー)角度の両方を推定し,実世界のアプリケーションにおけるユーザビリティを最大化するために,精度と推論速度のバランスをとろうとする。
我々のモデルは、2つのデータセット、すなわち「ポインティング」04(さまざまなポーズをカバー)と「野生における注釈付き顔のランドマーク」の組み合わせで訓練されている(実際の画像に使用するために、我々のモデルの堅牢性を改善するために)。
複合データセットの3つの異なるパーティションが定義され、トレーニング、検証、テストの目的で使用される。
この結果,低分解能グレースケールの入力画像が与えられ,顔のランドマークを使わずに,傾きとパン角の両方で低い誤差で推定できる,RealHePoNetと呼ばれるトレーニング済みのConvNetモデルが得られた(テスト分割における平均誤差~4.4{\deg})。
また,低推論時間 (1ヘッドあたり約6ms) を考えると,中型ハードウェア (GTX 1060 GPU) と組み合わせても,我々のモデルは利用可能であると考えられる。
https://github.com/rafabs97/headpose_final * Demo video at: https://www.youtube.com/watch?
v=2UeuXh5DjAE
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - 3D generation on ImageNet [76.0440752186121]
3DGP: トレーニングデータに関するより一般的な仮定を持つ3D合成フレームワークを開発した。
私たちのモデルは3つの新しいアイデアに基づいている。
SDIP Dogs 256x256, SDIP Elephants 256x256, LSUN Horses 256x256, ImageNet 256x256の4つのデータセットについて検討を行った。
論文 参考訳(メタデータ) (2023-03-02T17:06:57Z) - GCNDepth: Self-supervised Monocular Depth Estimation based on Graph
Convolutional Network [11.332580333969302]
この研究は、深度マップの量的および質的な理解を高めるために、一連の改善を伴う新しいソリューションをもたらす。
グラフ畳み込みネットワーク(GCN)は、非ユークリッドデータ上の畳み込みを処理でき、位相構造内の不規則な画像領域に適用することができる。
提案手法は,公的なKITTIおよびMake3Dデータセットに対して,高い予測精度で89%の精度で同等かつ有望な結果を与える。
論文 参考訳(メタデータ) (2021-12-13T16:46:25Z) - 3D Human Pose Regression using Graph Convolutional Network [68.8204255655161]
本稿では,2次元のポーズから3次元のポーズ回帰を行うために,PoseGraphNetというグラフ畳み込みネットワークを提案する。
我々のモデルの性能は最先端に近いが、パラメータははるかに少ない。
論文 参考訳(メタデータ) (2021-05-21T14:41:31Z) - Visual Camera Re-Localization Using Graph Neural Networks and Relative
Pose Supervision [31.947525258453584]
視覚再局在化とは、単一の画像を入力として、予め記録された環境に対してカメラの位置と向きを推定する手段である。
提案手法は特別な仮定をほとんど行わず,訓練やテストでは極めて軽量である。
標準の屋内(7-Scenes)と屋外(Cambridge Landmarks)のカメラ再ローカリゼーションベンチマークに対するアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2021-04-06T14:29:03Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - I2L-MeshNet: Image-to-Lixel Prediction Network for Accurate 3D Human
Pose and Mesh Estimation from a Single RGB Image [79.040930290399]
I2L-MeshNetを提案する。
提案したI2L-MeshNetは、パラメータを直接回帰するのではなく、各メッシュ座標の1Dヒートマップ上のリセル当たりの確率を予測する。
我々のリセルベースの1Dヒートマップは入力画像の空間的関係を保存し、予測の不確かさをモデル化する。
論文 参考訳(メタデータ) (2020-08-09T12:13:31Z) - HDNet: Human Depth Estimation for Multi-Person Camera-Space Localization [83.57863764231655]
本稿では,根の絶対的局所化のためのエンドツーエンドフレームワークであるHuman Depth Estimation Network (HDNet)を提案する。
関節間の特徴伝達に骨格ベースのグラフニューラルネットワーク(GNN)を用いる。
我々は,2つのベンチマークデータセットを用いて,ルートジョイントローカライゼーションとルート相対的な3次元ポーズ推定タスクについて,HDNetの評価を行った。
論文 参考訳(メタデータ) (2020-07-17T12:44:23Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。