論文の概要: An Effective Deep Network for Head Pose Estimation without Keypoints
- arxiv url: http://arxiv.org/abs/2210.13705v1
- Date: Tue, 25 Oct 2022 01:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 14:56:55.296406
- Title: An Effective Deep Network for Head Pose Estimation without Keypoints
- Title(参考訳): キーポイントを使わずに頭部ポーズ推定に有効なディープネットワーク
- Authors: Chien Thai and Viet Tran and Minh Bui and Huong Ninh and Hai Tran
- Abstract要約: 本稿では,頭部ポーズ推定問題を効果的に解決する軽量モデルを提案する。
提案手法は,最先端の頭部ポーズ推定手法と比較して精度を著しく向上させる。
当社のモデルでは、Tesla V100を推測すると、リアルタイムの速度は300FPS($sim$300 FPS)です。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human head pose estimation is an essential problem in facial analysis in
recent years that has a lot of computer vision applications such as gaze
estimation, virtual reality, and driver assistance. Because of the importance
of the head pose estimation problem, it is necessary to design a compact model
to resolve this task in order to reduce the computational cost when deploying
on facial analysis-based applications such as large camera surveillance
systems, AI cameras while maintaining accuracy. In this work, we propose a
lightweight model that effectively addresses the head pose estimation problem.
Our approach has two main steps. 1) We first train many teacher models on the
synthesis dataset - 300W-LPA to get the head pose pseudo labels. 2) We design
an architecture with the ResNet18 backbone and train our proposed model with
the ensemble of these pseudo labels via the knowledge distillation process. To
evaluate the effectiveness of our model, we use AFLW-2000 and BIWI - two
real-world head pose datasets. Experimental results show that our proposed
model significantly improves the accuracy in comparison with the
state-of-the-art head pose estimation methods. Furthermore, our model has the
real-time speed of $\sim$300 FPS when inferring on Tesla V100.
- Abstract(参考訳): 近年、視線推定、仮想現実、運転支援システムなど、多くのコンピュータビジョン応用がある顔分析において、人間の頭の位置推定は重要な問題となっている。
頭部ポーズ推定問題の重要性から,大規模なカメラ監視システム,AIカメラなどの顔分析に基づくアプリケーションに,精度を維持しつつ展開する際の計算コストを削減するために,この課題を解決するためのコンパクトモデルの設計が必要である。
本研究では,頭部ポーズ推定問題を効果的に解決する軽量モデルを提案する。
私たちのアプローチには2つの大きなステップがあります。
1)まず,合成データセット(300W-LPA)で多くの教師モデルを訓練し,頭部に擬似ラベルを付ける。
2) resnet18バックボーンを用いたアーキテクチャを設計し,これらの疑似ラベルをナレッジ蒸留プロセスでアンサンブルして,提案モデルを訓練する。
モデルの有効性を評価するために,AFLW-2000とBIWIという2つの実世界の頭部ポーズデータセットを用いた。
実験の結果,提案手法は最先端の頭部ポーズ推定法と比較して精度が著しく向上することがわかった。
さらに、当社のモデルでは、tesla v100で推定した場合のリアルタイム速度は$sim$300 fpsです。
関連論文リスト
- Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。
我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。
我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文 参考訳(メタデータ) (2023-12-20T18:08:02Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - Zero-Shot Category-Level Object Pose Estimation [24.822189326540105]
ゼロショット方式で新しい対象カテゴリーのポーズを推定する問題に取り組む。
これは、ポーズラベル付きデータセットやカテゴリ固有のCADモデルの必要性を取り除くことで、既存の文献の多くを拡張します。
本手法は平均回転精度を30度で6倍改善する。
論文 参考訳(メタデータ) (2022-04-07T17:58:39Z) - Simultaneous face detection and 360 degree headpose estimation [0.0]
顔検出モデルから抽出した特徴を利用するマルチタスクネットモデルを提案する。
マルチタスク学習手法を用いることで、マルチタスクネットモデルは人間の頭の位置と方向を同時に予測できる。
論文 参考訳(メタデータ) (2021-11-23T01:56:10Z) - HHP-Net: A light Heteroscedastic neural network for Head Pose estimation
with uncertainty [2.064612766965483]
そこで,本研究では,頭部キーポイントの小さなセットから始まる,単一画像中の人物の頭部ポーズを推定する新しい手法を提案する。
私たちのモデルは実装が簡単で、芸術の状況に関してより効率的です。
論文 参考訳(メタデータ) (2021-11-02T08:55:45Z) - When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。
精度を向上させるために,2つの軽量モジュールを提案する。
DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。
QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文 参考訳(メタデータ) (2021-05-27T13:51:42Z) - EfficientPose: Efficient Human Pose Estimation with Neural Architecture
Search [47.30243595690131]
効率的なバックボーンと効率的なヘッドの2つの部分を含む、人間のポーズ推定を目的とした効率的なフレームワークを提案します。
我々の最小モデルは、MPIIで88.1%のPCKh@0.5の0.65 GFLOPしか持たず、我々の大モデルは2 GFLOPしか持たないが、その精度は最先端の大型モデルと競合する。
論文 参考訳(メタデータ) (2020-12-13T15:38:38Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。