論文の概要: A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with
Full-range Angles
- arxiv url: http://arxiv.org/abs/2302.01110v1
- Date: Thu, 2 Feb 2023 14:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:44:05.415125
- Title: A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with
Full-range Angles
- Title(参考訳): フルレンジ角度による直接2次元頭部電位推定のための簡易ベースライン
- Authors: Huayi Zhou, Fei Jiang, and Hongtao Lu
- Abstract要約: 既存の頭部ポーズ推定(HPE)は主に前頭前頭部を検知した1人に焦点を当てている。
MPHPE(Multi-Person Head Pose Estimation)では,これらの単一手法は脆弱で非効率である,と我々は主張する。
本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPという,エンドツーエンドのシンプルなベースラインを提案する。
- 参考スコア(独自算出の注目度): 24.04477340811483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing head pose estimation (HPE) mainly focuses on single person with
pre-detected frontal heads, which limits their applications in real complex
scenarios with multi-persons. We argue that these single HPE methods are
fragile and inefficient for Multi-Person Head Pose Estimation (MPHPE) since
they rely on the separately trained face detector that cannot generalize well
to full viewpoints, especially for heads with invisible face areas. In this
paper, we focus on the full-range MPHPE problem, and propose a direct
end-to-end simple baseline named DirectMHP. Due to the lack of datasets
applicable to the full-range MPHPE, we firstly construct two benchmarks by
extracting ground-truth labels for head detection and head orientation from
public datasets AGORA and CMU Panoptic. They are rather challenging for having
many truncated, occluded, tiny and unevenly illuminated human heads. Then, we
design a novel end-to-end trainable one-stage network architecture by joint
regressing locations and orientations of multi-head to address the MPHPE
problem. Specifically, we regard pose as an auxiliary attribute of the head,
and append it after the traditional object prediction. Arbitrary pose
representation such as Euler angles is acceptable by this flexible design.
Then, we jointly optimize these two tasks by sharing features and utilizing
appropriate multiple losses. In this way, our method can implicitly benefit
from more surroundings to improve HPE accuracy while maintaining head detection
performance. We present comprehensive comparisons with state-of-the-art single
HPE methods on public benchmarks, as well as superior baseline results on our
constructed MPHPE datasets. Datasets and code are released in
https://github.com/hnuzhy/DirectMHP.
- Abstract(参考訳): 既存のヘッドポーズ推定(hpe)は主に、事前に検出されたフロントヘッドを持つ1人の人に焦点を当てている。
これらのHPE法は, 顔領域が見えない頭部において, 全視点で十分に一般化できない, 個別に訓練された顔検出器に頼っているため, マルチパーソンヘッドポーズ推定(MPHPE)では脆弱で非効率である。
本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPというエンドツーエンドのシンプルなベースラインを提案する。
フルレンジの mphpe に適用可能なデータセットが不足していることから,まずは agora と cmu panoptic の公開データセットから,ヘッド検出のための接地ラベルとヘッドオリエンテーションを抽出して,2つのベンチマークを構築した。
彼らは、多くの遮断され、閉塞され、小さく、不均等に照らされた人間の頭を持つことに、かなり挑戦している。
そこで我々は,MPHPE問題に対処するために,マルチヘッドの位置と向きを協調的に回帰することで,エンドツーエンドのトレーニング可能な新しいワンステージネットワークアーキテクチャを設計する。
具体的には、ポーズを頭部の補助的な属性とみなし、従来のオブジェクト予測の後に追加する。
オイラー角のような任意ポーズ表現はこの柔軟な設計で受け入れられる。
次に,これら2つのタスクを機能共有と適切な多重損失の活用により,協調して最適化する。
このようにして,本手法は,頭部検出性能を維持しつつ,HPEの精度を向上させるために,より多くの環境から暗黙的に恩恵を受けることができる。
提案手法は, 提案したMPHPEデータセットのベースライン結果に優れ, 従来のHPE手法と比較して総合的に比較する。
データセットとコードはhttps://github.com/hnuzhy/DirectMHPで公開されている。
関連論文リスト
- EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs [17.864281586189392]
ウェアラブルセンサを用いた人間中心のポーズ推定(HPE)はVR/ARアプリケーションに不可欠である。
ほとんどの手法は、エゴセントリック・ビュー・イメージまたはスパース慣性測定ユニット(IMU)信号にのみ依存する。
マルチモーダルなtextbfEgocentric human textbfMotion データセットである textbfHead-Mounted Display (HMD) と body-worn textbfIMU を提案する。
論文 参考訳(メタデータ) (2024-08-30T10:12:13Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [60.08319512840091]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は,野生頭部のアスペクト比不変収穫が,それまでのランドマークベースのアフィンアライメントよりも優れているという観測に基づいている。
実験とアブレーション研究は、SemiUHPEが既存の手法を公開ベンチマークで大きく上回っていることを示している。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z) - HiFi: High-Information Attention Heads Hold for Parameter-Efficient
Model Adaptation [0.8409934249521909]
パラメータ効率の高い微調整手法であるHiFiを提案する。
まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。
GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-08T09:31:13Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-18T03:57:14Z) - UET-Headpose: A sensor-based top-view head pose dataset [0.0]
本稿では,頭部画像の収集に費用効率が高く,セットアップが容易な新しい手法を提案する。
この方法は、Depthカメラの代わりに絶対方位センサを使用して、迅速かつ安価に設定できる。
また,FSANet-Wideと呼ばれるフルレンジモデルを導入し,UET-Headposeデータセットによる頭部ポーズ推定結果を大幅に上回っている。
論文 参考訳(メタデータ) (2021-11-13T04:54:20Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose [1.8275108630751844]
本稿では,1枚のRGB画像から全方向のヘッドヤウからオイラー角度を推定するエンド・ツー・エンドのヘッドプレース推定ネットワークを提案する。
ネットワークは、損失関数の変更と広帯域推定に適応したトレーニング戦略を備えたマルチロスアプローチに基づいて構築されている。
論文 参考訳(メタデータ) (2020-05-20T20:53:01Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。