論文の概要: WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose
- arxiv url: http://arxiv.org/abs/2005.10353v2
- Date: Tue, 22 Sep 2020 22:54:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 05:49:29.682458
- Title: WHENet: Real-time Fine-Grained Estimation for Wide Range Head Pose
- Title(参考訳): whenet: 広範囲頭部ポーズのリアルタイム細粒度推定
- Authors: Yijun Zhou, James Gregson
- Abstract要約: 本稿では,1枚のRGB画像から全方向のヘッドヤウからオイラー角度を推定するエンド・ツー・エンドのヘッドプレース推定ネットワークを提案する。
ネットワークは、損失関数の変更と広帯域推定に適応したトレーニング戦略を備えたマルチロスアプローチに基づいて構築されている。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an end-to-end head-pose estimation network designed to predict
Euler angles through the full range head yaws from a single RGB image. Existing
methods perform well for frontal views but few target head pose from all
viewpoints. This has applications in autonomous driving and retail. Our network
builds on multi-loss approaches with changes to loss functions and training
strategies adapted to wide range estimation. Additionally, we extract ground
truth labelings of anterior views from a current panoptic dataset for the first
time. The resulting Wide Headpose Estimation Network (WHENet) is the first
fine-grained modern method applicable to the full-range of head yaws (hence
wide) yet also meets or beats state-of-the-art methods for frontal head pose
estimation. Our network is compact and efficient for mobile devices and
applications.
- Abstract(参考訳): 本稿では,1枚のRGB画像から全方向のヘッドヤウからオイラー角度を推定するエンド・ツー・エンドのヘッドプレース推定ネットワークを提案する。
既存の手法は正面視ではうまく機能するが、あらゆる視点から標的頭部のポーズは少ない。
これは自動運転と小売に応用できる。
ネットワークは、損失関数の変更と広域推定に適応したトレーニング戦略によるマルチロスアプローチに基づいている。
さらに,本研究では,現在のパノプティクスデータセットから,前方視の接地真実ラベルを初めて抽出する。
得られたワイド・ヘッドポジション推定ネットワーク (WHENet) は、ヘッド・ユーのフルレンジ(幅広)に適用できる最初のきめ細かい現代的手法であるが、前頭頭部ポーズ推定のための最先端の手法にも適合または打ち勝つ。
私たちのネットワークは、モバイルデバイスやアプリケーションにとってコンパクトで効率的です。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - FoVA-Depth: Field-of-View Agnostic Depth Estimation for Cross-Dataset
Generalization [57.98448472585241]
本研究では,広く利用可能なピンホールデータに基づいてステレオ深度推定モデルを訓練する手法を提案する。
屋内および屋外の両方のデータセットに対するアプローチの強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-01-24T20:07:59Z) - Towards Robust and Unconstrained Full Range of Rotation Head Pose
Estimation [2.915868985330569]
本稿では,非拘束型終端頭部ポーズ推定のための新しい手法を提案する。
効率的かつロバストな直接回帰のための連続6次元回転行列表現を提案する。
提案手法は,他の最先端手法よりも効率的かつロバストに優れる。
論文 参考訳(メタデータ) (2023-09-14T12:17:38Z) - Rethinking Range View Representation for LiDAR Segmentation [66.73116059734788]
「多対一」マッピング、意味的不整合、形状変形は、射程射影からの効果的な学習に対する障害となる可能性がある。
RangeFormerは、ネットワークアーキテクチャ、データ拡張、後処理を含む新しい設計を含む、フルサイクルのフレームワークである。
比較対象のLiDARセマンティックスとパノプティックスセグメンテーションのベンチマークにおいて,初めてレンジビュー法が点,ボクセル,マルチビューフュージョンを越えられることを示す。
論文 参考訳(メタデータ) (2023-03-09T16:13:27Z) - A Simple Baseline for Direct 2D Multi-Person Head Pose Estimation with
Full-range Angles [24.04477340811483]
既存の頭部ポーズ推定(HPE)は主に前頭前頭部を検知した1人に焦点を当てている。
MPHPE(Multi-Person Head Pose Estimation)では,これらの単一手法は脆弱で非効率である,と我々は主張する。
本稿では,フルレンジMPHPE問題に焦点をあて,DirectMHPという,エンドツーエンドのシンプルなベースラインを提案する。
論文 参考訳(メタデータ) (2023-02-02T14:08:49Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Efficient Multi-Objective Optimization for Deep Learning [2.0305676256390934]
マルチオブジェクト最適化(MOO)はディープラーニングの一般的な課題です。
真に深いニューラルネットワークのためのスケーラブルなMOOソリューションはありません。
論文 参考訳(メタデータ) (2021-03-24T17:59:42Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Calibrating Self-supervised Monocular Depth Estimation [77.77696851397539]
近年、ニューラルネットワークが深度を学習し、画像のシーケンスに変化を起こさせる能力を示す方法は、訓練信号として自己スーパービジョンのみを使用している。
カメラの構成や環境に関する事前情報を取り入れることで,センサの追加に頼ることなく,自己教師型定式化を用いて,スケールのあいまいさを排除し,深度を直接予測できることを示す。
論文 参考訳(メタデータ) (2020-09-16T14:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。