論文の概要: An Intuitive and Unconstrained 2D Cube Representation for Simultaneous
Head Detection and Pose Estimation
- arxiv url: http://arxiv.org/abs/2212.03623v1
- Date: Wed, 7 Dec 2022 13:28:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:24:14.621546
- Title: An Intuitive and Unconstrained 2D Cube Representation for Simultaneous
Head Detection and Pose Estimation
- Title(参考訳): 直感的・非拘束な2次元立方体表現による頭部同時検出と姿勢推定
- Authors: Huayi Zhou, Fei Jiang, Lili Xiong, Hongtao Lu
- Abstract要約: 直感的手法による新しい単一ステージ鍵ベース手法を提案し,その2次元立方体表現を結合頭部検出とポーズ推定のために提案する。
提案手法は,AFLW2000およびBIWIデータセット上の他の代表手法と同等の結果を得る。
- 参考スコア(独自算出の注目度): 24.04477340811483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most recent head pose estimation (HPE) methods are dominated by the Euler
angle representation. To avoid its inherent ambiguity problem of rotation
labels, alternative quaternion-based and vector-based representations are
introduced. However, they both are not visually intuitive, and often derived
from equivocal Euler angle labels. In this paper, we present a novel
single-stage keypoint-based method via an {\it intuitive} and {\it
unconstrained} 2D cube representation for joint head detection and pose
estimation. The 2D cube is an orthogonal projection of the 3D regular
hexahedron label roughly surrounding one head, and itself contains the head
location. It can reflect the head orientation straightforwardly and
unambiguously in any rotation angle. Unlike the general 6-DoF object pose
estimation, our 2D cube ignores the 3-DoF of head size but retains the 3-DoF of
head pose. Based on the prior of equal side length, we can effortlessly obtain
the closed-form solution of Euler angles from predicted 2D head cube instead of
applying the error-prone PnP algorithm. In experiments, our proposed method
achieves comparable results with other representative methods on the public
AFLW2000 and BIWI datasets. Besides, a novel test on the CMU panoptic dataset
shows that our method can be seamlessly adapted to the unconstrained full-view
HPE task without modification.
- Abstract(参考訳): 最近のヘッドポーズ推定 (hpe) 法はオイラー角表現に支配されている。
回転ラベルの固有のあいまいさ問題を避けるために、代替四元数ベースおよびベクトルベース表現を導入する。
しかし、両者は視覚的に直観的ではなく、しばしば等角なオイラー角ラベルに由来する。
本稿では,関節頭部検出とポーズ推定のために,直感的かつ非拘束的な2次元立方体表現を用いた新しい単一段階鍵点法を提案する。
2d立方体は、ほぼ1つの頭部を囲む3d正規六面体ラベルの直交射影であり、それ自体は頭部の位置を含む。
頭部の向きを任意の回転角度で直接的かつあいまいに反射することができる。
一般的な6-DoFオブジェクトのポーズ推定とは異なり、我々の2D立方体は頭部の3-DoFを無視するが、頭部の3-DoFは保持する。
等辺長の先行に基づいて,誤差確率PnPアルゴリズムを適用するのではなく,予測された2次元頭部立方体からオイラー角の閉形式解を得ることができる。
提案手法は,AFLW2000およびBIWIデータセット上での他の代表手法と同等の結果を得る。
また、cmu panopticデータセットの新規なテストにより、本手法は変更することなく、制約のないフルビューhpeタスクにシームレスに適応できることを示した。
関連論文リスト
- MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z) - Full-range Head Pose Geometric Data Augmentations [2.8358100463599722]
多くのヘッドポーズ推定(HPE)メソッドは、フルレンジデータセットを作成する能力を約束する。
これらの手法は、頭部角度の範囲内でのみ正確であり、この特定の範囲を超えると、重大な不正確な結果がもたらされる。
本稿では,正しい軸列の座標系とオイラー角を正確に推定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-02T20:41:18Z) - Semi-Supervised Unconstrained Head Pose Estimation in the Wild [60.08319512840091]
本研究では,最初の半教師なしヘッドポーズ推定手法であるSemiUHPEを提案する。
本手法は,野生頭部のアスペクト比不変収穫が,それまでのランドマークベースのアフィンアライメントよりも優れているという観測に基づいている。
実験とアブレーション研究は、SemiUHPEが既存の手法を公開ベンチマークで大きく上回っていることを示している。
論文 参考訳(メタデータ) (2024-04-03T08:01:00Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - AutoShape: Real-Time Shape-Aware Monocular 3D Object Detection [15.244852122106634]
形状認識型2D/3D制約を3D検出フレームワークに組み込む手法を提案する。
具体的には、ディープニューラルネットワークを用いて、2次元画像領域の区別された2Dキーポイントを学習する。
2D/3Dキーポイントの基礎的真理を生成するために、自動的なモデル適合手法が提案されている。
論文 参考訳(メタデータ) (2021-08-25T08:50:06Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - Neural Articulated Radiance Field [90.91714894044253]
本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。
実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。
論文 参考訳(メタデータ) (2021-04-07T13:23:14Z) - A Vector-based Representation to Enhance Head Pose Estimation [4.329951775163721]
本稿では,回転行列における3つのベクトルを頭部ポーズ推定の表現として用いることを提案する。
我々はそのような表現の特徴に基づく新しいニューラルネットワークを開発する。
論文 参考訳(メタデータ) (2020-10-14T15:57:29Z) - SeqXY2SeqZ: Structure Learning for 3D Shapes by Sequentially Predicting
1D Occupancy Segments From 2D Coordinates [61.04823927283092]
本稿では,各2次元位置における関数の出力が内部の線分列である2次元関数を用いて3次元形状を表現することを提案する。
本研究では,SeqXY2SeqZと呼ばれるセック2Seqモデルを用いて,2つの任意の軸に沿った2次元座標列から3つの軸に沿った1次元位置の列への写像を学習する手法を提案する。
実験の結果,SeqXY2SeqZは広く使用されているベンチマークで最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-03-12T00:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。