論文の概要: A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with
Full-range Angles
- arxiv url: http://arxiv.org/abs/2302.01110v1
- Date: Thu, 2 Feb 2023 14:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:44:05.415125
- Title: A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with
Full-range Angles
- Title(参考訳): フルレンジ角度による直接2次元頭部電位推定のための簡易ベースライン
- Authors: Huayi Zhou, Fei Jiang, and Hongtao Lu
- Abstract要約: 既存の頭部ポーズ推定(HPE)は主に前頭前頭部を検知した1人に焦点を当てている。
MPHPE(Multi-Person Head Pose Estimation)では,これらの単一手法は脆弱で非効率である,と我々は主張する。
本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPという,エンドツーエンドのシンプルなベースラインを提案する。
- 参考スコア(独自算出の注目度): 24.04477340811483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing head pose estimation (HPE) mainly focuses on single person with
pre-detected frontal heads, which limits their applications in real complex
scenarios with multi-persons. We argue that these single HPE methods are
fragile and inefficient for Multi-Person Head Pose Estimation (MPHPE) since
they rely on the separately trained face detector that cannot generalize well
to full viewpoints, especially for heads with invisible face areas. In this
paper, we focus on the full-range MPHPE problem, and propose a direct
end-to-end simple baseline named DirectMHP. Due to the lack of datasets
applicable to the full-range MPHPE, we firstly construct two benchmarks by
extracting ground-truth labels for head detection and head orientation from
public datasets AGORA and CMU Panoptic. They are rather challenging for having
many truncated, occluded, tiny and unevenly illuminated human heads. Then, we
design a novel end-to-end trainable one-stage network architecture by joint
regressing locations and orientations of multi-head to address the MPHPE
problem. Specifically, we regard pose as an auxiliary attribute of the head,
and append it after the traditional object prediction. Arbitrary pose
representation such as Euler angles is acceptable by this flexible design.
Then, we jointly optimize these two tasks by sharing features and utilizing
appropriate multiple losses. In this way, our method can implicitly benefit
from more surroundings to improve HPE accuracy while maintaining head detection
performance. We present comprehensive comparisons with state-of-the-art single
HPE methods on public benchmarks, as well as superior baseline results on our
constructed MPHPE datasets. Datasets and code are released in
https://github.com/hnuzhy/DirectMHP.
- Abstract(参考訳): 既存のヘッドポーズ推定(hpe)は主に、事前に検出されたフロントヘッドを持つ1人の人に焦点を当てている。
これらのHPE法は, 顔領域が見えない頭部において, 全視点で十分に一般化できない, 個別に訓練された顔検出器に頼っているため, マルチパーソンヘッドポーズ推定(MPHPE)では脆弱で非効率である。
本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPというエンドツーエンドのシンプルなベースラインを提案する。
フルレンジの mphpe に適用可能なデータセットが不足していることから,まずは agora と cmu panoptic の公開データセットから,ヘッド検出のための接地ラベルとヘッドオリエンテーションを抽出して,2つのベンチマークを構築した。
彼らは、多くの遮断され、閉塞され、小さく、不均等に照らされた人間の頭を持つことに、かなり挑戦している。
そこで我々は,MPHPE問題に対処するために,マルチヘッドの位置と向きを協調的に回帰することで,エンドツーエンドのトレーニング可能な新しいワンステージネットワークアーキテクチャを設計する。
具体的には、ポーズを頭部の補助的な属性とみなし、従来のオブジェクト予測の後に追加する。
オイラー角のような任意ポーズ表現はこの柔軟な設計で受け入れられる。
次に,これら2つのタスクを機能共有と適切な多重損失の活用により,協調して最適化する。
このようにして,本手法は,頭部検出性能を維持しつつ,HPEの精度を向上させるために,より多くの環境から暗黙的に恩恵を受けることができる。
提案手法は, 提案したMPHPEデータセットのベースライン結果に優れ, 従来のHPE手法と比較して総合的に比較する。
データセットとコードはhttps://github.com/hnuzhy/DirectMHPで公開されている。
関連論文リスト
- Scalable Mechanism Design for Multi-Agent Path Finding [90.68703851865585]
MAPF (Multi-Agent Path Finding) は、複数のエージェントが特定の目標地点に向かって共有領域を同時に移動するための経路を決定する。
最適解を見つけることは、しばしば計算不可能であり、近似アルゴリズムを用いることが不可欠である。
本稿では,MAPFのスケーラブルな機構設計の問題を紹介し,その対策として3つのメカニズムを提案する。
論文 参考訳(メタデータ) (2024-01-30T14:26:04Z) - HiFi: High-Information Attention Heads Hold for Parameter-Efficient
Model Adaptation [0.8409934249521909]
パラメータ効率の高い微調整手法であるHiFiを提案する。
まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。
GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2023-05-08T09:31:13Z) - HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。
ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。
画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文 参考訳(メタデータ) (2022-12-13T10:04:01Z) - End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-18T03:57:14Z) - UET-Headpose: A sensor-based top-view head pose dataset [0.0]
本稿では,頭部画像の収集に費用効率が高く,セットアップが容易な新しい手法を提案する。
この方法は、Depthカメラの代わりに絶対方位センサを使用して、迅速かつ安価に設定できる。
また,FSANet-Wideと呼ばれるフルレンジモデルを導入し,UET-Headposeデータセットによる頭部ポーズ推定結果を大幅に上回っている。
論文 参考訳(メタデータ) (2021-11-13T04:54:20Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - HHP-Net: A light Heteroscedastic neural network for Head Pose estimation
with uncertainty [2.064612766965483]
そこで,本研究では,頭部キーポイントの小さなセットから始まる,単一画像中の人物の頭部ポーズを推定する新しい手法を提案する。
私たちのモデルは実装が簡単で、芸術の状況に関してより効率的です。
論文 参考訳(メタデータ) (2021-11-02T08:55:45Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose [1.8275108630751844]
本稿では,1枚のRGB画像から全方向のヘッドヤウからオイラー角度を推定するエンド・ツー・エンドのヘッドプレース推定ネットワークを提案する。
ネットワークは、損失関数の変更と広帯域推定に適応したトレーニング戦略を備えたマルチロスアプローチに基づいて構築されている。
論文 参考訳(メタデータ) (2020-05-20T20:53:01Z) - A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。
機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。
分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文 参考訳(メタデータ) (2020-05-13T19:05:58Z) - FairMOT: On the Fairness of Detection and Re-Identification in Multiple
Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。
本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。
このアプローチは、検出と追跡の両方において高い精度を達成する。
論文 参考訳(メタデータ) (2020-04-04T08:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。