Fugu-MT 論文翻訳(概要): A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with Full-range Angles

論文の概要: A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with Full-range Angles

arxiv url: http://arxiv.org/abs/2302.01110v1
Date: Thu, 2 Feb 2023 14:08:49 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-03 13:44:05.415125
Title: A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with Full-range Angles
Title（参考訳）: フルレンジ角度による直接2次元頭部電位推定のための簡易ベースライン
Authors: Huayi Zhou, Fei Jiang, and Hongtao Lu
Abstract要約: 既存の頭部ポーズ推定(HPE)は主に前頭前頭部を検知した1人に焦点を当てている。 MPHPE(Multi-Person Head Pose Estimation)では,これらの単一手法は脆弱で非効率である,と我々は主張する。本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPという,エンドツーエンドのシンプルなベースラインを提案する。
参考スコア（独自算出の注目度）: 24.04477340811483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing head pose estimation (HPE) mainly focuses on single person with pre-detected frontal heads, which limits their applications in real complex scenarios with multi-persons. We argue that these single HPE methods are fragile and inefficient for Multi-Person Head Pose Estimation (MPHPE) since they rely on the separately trained face detector that cannot generalize well to full viewpoints, especially for heads with invisible face areas. In this paper, we focus on the full-range MPHPE problem, and propose a direct end-to-end simple baseline named DirectMHP. Due to the lack of datasets applicable to the full-range MPHPE, we firstly construct two benchmarks by extracting ground-truth labels for head detection and head orientation from public datasets AGORA and CMU Panoptic. They are rather challenging for having many truncated, occluded, tiny and unevenly illuminated human heads. Then, we design a novel end-to-end trainable one-stage network architecture by joint regressing locations and orientations of multi-head to address the MPHPE problem. Specifically, we regard pose as an auxiliary attribute of the head, and append it after the traditional object prediction. Arbitrary pose representation such as Euler angles is acceptable by this flexible design. Then, we jointly optimize these two tasks by sharing features and utilizing appropriate multiple losses. In this way, our method can implicitly benefit from more surroundings to improve HPE accuracy while maintaining head detection performance. We present comprehensive comparisons with state-of-the-art single HPE methods on public benchmarks, as well as superior baseline results on our constructed MPHPE datasets. Datasets and code are released in https://github.com/hnuzhy/DirectMHP.
Abstract（参考訳）: 既存のヘッドポーズ推定(hpe)は主に、事前に検出されたフロントヘッドを持つ1人の人に焦点を当てている。これらのHPE法は, 顔領域が見えない頭部において, 全視点で十分に一般化できない, 個別に訓練された顔検出器に頼っているため, マルチパーソンヘッドポーズ推定(MPHPE)では脆弱で非効率である。本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPというエンドツーエンドのシンプルなベースラインを提案する。フルレンジの mphpe に適用可能なデータセットが不足していることから,まずは agora と cmu panoptic の公開データセットから,ヘッド検出のための接地ラベルとヘッドオリエンテーションを抽出して,2つのベンチマークを構築した。彼らは、多くの遮断され、閉塞され、小さく、不均等に照らされた人間の頭を持つことに、かなり挑戦している。そこで我々は,MPHPE問題に対処するために,マルチヘッドの位置と向きを協調的に回帰することで,エンドツーエンドのトレーニング可能な新しいワンステージネットワークアーキテクチャを設計する。具体的には、ポーズを頭部の補助的な属性とみなし、従来のオブジェクト予測の後に追加する。オイラー角のような任意ポーズ表現はこの柔軟な設計で受け入れられる。次に,これら2つのタスクを機能共有と適切な多重損失の活用により,協調して最適化する。このようにして,本手法は,頭部検出性能を維持しつつ,HPEの精度を向上させるために,より多くの環境から暗黙的に恩恵を受けることができる。提案手法は, 提案したMPHPEデータセットのベースライン結果に優れ, 従来のHPE手法と比較して総合的に比較する。データセットとコードはhttps://github.com/hnuzhy/DirectMHPで公開されている。

関連論文リスト

Explicit Multi-head Attention for Inter-head Interaction in Large Language Models [70.96854312026319]
マルチヘッド明示的注意(Multi-head Explicit Attention、MEA)は、頭間相互作用を明示的にモデル化した、単純で効果的な注意法である。 MEAは事前トレーニングにおいて強い堅牢性を示し、より高速な収束につながる学習率を使用することを可能にします。これにより、KVキャッシュメモリ使用率を50%削減できる実用的なキー値キャッシュ圧縮戦略が実現される。
論文参考訳（メタデータ） (2026-01-27T13:45:03Z)
EMHI: A Multimodal Egocentric Human Motion Dataset with HMD and Body-Worn IMUs [17.864281586189392]
ウェアラブルセンサを用いた人間中心のポーズ推定(HPE)はVR/ARアプリケーションに不可欠である。ほとんどの手法は、エゴセントリック・ビュー・イメージまたはスパース慣性測定ユニット(IMU)信号にのみ依存する。マルチモーダルなtextbfEgocentric human textbfMotion データセットである textbfHead-Mounted Display (HMD) と body-worn textbfIMU を提案する。
論文参考訳（メタデータ） (2024-08-30T10:12:13Z)
Semi-Supervised Unconstrained Head Pose Estimation in the Wild [60.08319512840091]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。本手法は,野生頭部のアスペクト比不変収穫が,それまでのランドマークベースのアフィンアライメントよりも優れているという観測に基づいている。実験とアブレーション研究は、SemiUHPEが既存の手法を公開ベンチマークで大きく上回っていることを示している。
論文参考訳（メタデータ） (2024-04-03T08:01:00Z)
360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。また,水平深度と比表現に適した教師なし適応手法を提案する。本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文参考訳（メタデータ） (2023-12-26T12:16:03Z)
HiFi: High-Information Attention Heads Hold for Parameter-Efficient Model Adaptation [0.8409934249521909]
パラメータ効率の高い微調整手法であるHiFiを提案する。まず,2つの情報豊かさと相関性の観点から,頭部間の関係をグラフにモデル化し,各頭部の相対的重要性を決定するためにPageRankアルゴリズムを適用した。 GLUEベンチマークを用いた実験により,提案手法の有効性を実証し,HiFiが先行ベースライン上での最先端性能が得られることを示す。
論文参考訳（メタデータ） (2023-05-08T09:31:13Z)
HS-Diffusion: Semantic-Mixing Diffusion for Head Swapping [150.06405071177048]
ヘッドスワップ(HS-Diffusion)のための意味混合拡散モデルを提案する。ソース・ヘッドとソース・ボディのセマンティック・レイアウトをブレンドし、その後、セマンティック・レイアウト・ジェネレータによって遷移領域を塗り替える。画像ベースのヘッドスワップベンチマークを構築し,2つの設計基準を設計する。
論文参考訳（メタデータ） (2022-12-13T10:04:01Z)
End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文参考訳（メタデータ） (2022-04-18T03:57:14Z)
UET-Headpose: A sensor-based top-view head pose dataset [0.0]
本稿では,頭部画像の収集に費用効率が高く,セットアップが容易な新しい手法を提案する。この方法は、Depthカメラの代わりに絶対方位センサを使用して、迅速かつ安価に設定できる。また,FSANet-Wideと呼ばれるフルレンジモデルを導入し,UET-Headposeデータセットによる頭部ポーズ推定結果を大幅に上回っている。
論文参考訳（メタデータ） (2021-11-13T04:54:20Z)
Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。 MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-11-07T13:09:20Z)
WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose [1.8275108630751844]
本稿では,1枚のRGB画像から全方向のヘッドヤウからオイラー角度を推定するエンド・ツー・エンドのヘッドプレース推定ネットワークを提案する。ネットワークは、損失関数の変更と広帯域推定に適応したトレーニング戦略を備えたマルチロスアプローチに基づいて構築されている。
論文参考訳（メタデータ） (2020-05-20T20:53:01Z)
A Mixture of $h-1$ Heads is Better than $h$ Heads [63.12336930345417]
我々は注意的専門家モデル(MAE)の混合を提案する。機械翻訳と言語モデリングの実験により、MAEは両方のタスクにおいて強いベースラインを上回ります。分析の結果、我々のモデルは、異なる専門家を異なる入力に専門化することを学びました。
論文参考訳（メタデータ） (2020-05-13T19:05:58Z)
FairMOT: On the Fairness of Detection and Re-Identification in Multiple Object Tracking [92.48078680697311]
マルチオブジェクトトラッキング(MOT)はコンピュータビジョンにおいて重要な問題である。本稿では,FairMOTと呼ばれる,アンカーフリーなオブジェクト検出アーキテクチャCenterNetをベースとした,シンプルかつ効果的なアプローチを提案する。このアプローチは、検出と追跡の両方において高い精度を達成する。
論文参考訳（メタデータ） (2020-04-04T08:18:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。