論文の概要: On the power of data augmentation for head pose estimation
- arxiv url: http://arxiv.org/abs/2407.05357v2
- Date: Wed, 10 Jul 2024 18:35:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 11:44:36.296954
- Title: On the power of data augmentation for head pose estimation
- Title(参考訳): 頭部ポーズ推定のためのデータ拡張のパワーについて
- Authors: Michael Welter,
- Abstract要約: 本稿では, 自然画像へのより良い一般化を実現するために, 合成データの異なるフレーバーの組み合わせを提案する。
精度と効率の両面での競合モデルが得られ、実際のリアルタイムアプリケーションで完全な6つのDoFポーズ推定が可能となる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning has been impressively successful in the last decade in predicting human head poses from monocular images. For in-the-wild inputs, the research community has predominantly relied on a single training set of semi-synthetic nature. This paper suggest the combination of different flavors of synthetic data in order to achieve better generalization to natural images. Moreover, additional expansion of the data volume using traditional out-of-plane rotation synthesis is considered. Together with a novel combination of losses and a network architecture with a standard feature-extractor, a competitive model is obtained, both in accuracy and efficiency, which allows full 6 DoF pose estimation in practical real-time applications.
- Abstract(参考訳): 深層学習は、モノクラー画像から人間の頭部のポーズを予測することで、過去10年間、驚くべき成功を収めてきた。
インザワイルドインプットでは、研究コミュニティは主として、半合成的な1つのトレーニングセットに依存している。
本稿では, 自然画像へのより良い一般化を実現するために, 合成データの異なるフレーバーの組み合わせを提案する。
さらに、従来の外面回転合成によるデータボリュームのさらなる拡張も検討した。
ネットワークアーキテクチャと標準的な特徴抽出器を組み合わせることで、精度と効率の両面での競争モデルが得られ、実用的なリアルタイムアプリケーションにおいて完全な6DoFポーズ推定が可能となった。
関連論文リスト
- Rejection Sampling IMLE: Designing Priors for Better Few-Shot Image
Synthesis [7.234618871984921]
新たな研究分野は、限られたトレーニングデータで深層生成モデルを学ぶことを目的としている。
トレーニングに使用する事前分布を変更する新しいアプローチであるRS-IMLEを提案する。
これにより、既存のGANやIMLEベースの手法に比べて画質が大幅に向上する。
論文 参考訳(メタデータ) (2024-09-26T00:19:42Z) - Semi-supervised 2D Human Pose Estimation via Adaptive Keypoint Masking [2.297586471170049]
本稿では,サンプル中の情報を完全にマイニングし,より優れた推定性能が得られる適応型キーポイントマスキング法を提案する。
提案手法の有効性をCOCOとMPIIで検証し,最先端の半教師によるポーズ推定をそれぞれ5.2%と0.3%で上回った。
論文 参考訳(メタデータ) (2024-04-23T08:41:50Z) - Data Quality Aware Approaches for Addressing Model Drift of Semantic
Segmentation Models [1.6385815610837167]
本研究では,戦闘モデルドリフトに対する2つの顕著な品質意識戦略について検討した。
前者は画像品質評価の指標を活用して、厳密に高品質なトレーニングデータを選択し、モデルの堅牢性を向上させる。
後者は、既存のモデルから学んだベクトル機能を利用して、将来のデータの選択をガイドし、モデルの以前の知識と整合させる。
論文 参考訳(メタデータ) (2024-02-11T18:01:52Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - DiffHPE: Robust, Coherent 3D Human Pose Lifting with Diffusion [54.0238087499699]
拡散モデルにより,人間のポーズ推定精度,ロバスト性,コヒーレンス性が向上することを示す。
3D-HPEにおける拡散モデルを利用する新しい戦略であるDiffHPEを紹介する。
以上の結果から, 独立拡散モデルにより, 予測可能な性能が得られる一方で, 教師付きモデルと組み合わせて精度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-04T12:54:10Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Towards Fine-grained Human Pose Transfer with Detail Replenishing
Network [96.54367984986898]
ヒューマン・ポーズ・トランスファー(HPT)は、ファッションデザイン、メディア制作、オンライン広告、バーチャルリアリティーにおいて大きな可能性を秘めている研究分野である。
既存のHPT手法は、詳細不足、内容の曖昧さ、スタイルの不整合という3つの根本的な問題に悩まされることが多い。
我々は、より難易度が高く実用的なHPTセッティングを開発し、よりセマンティックな忠実さと詳細な補充に焦点を当てた、FHPT(F Fine-fine Human Pose Transfer)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-26T03:05:23Z) - Self6D: Self-Supervised Monocular 6D Object Pose Estimation [114.18496727590481]
自己教師付き学習による単眼6次元ポーズ推定のアイデアを提案する。
ニューラルレンダリングの最近の進歩を活用して、注釈のない実RGB-Dデータのモデルをさらに自己監督する。
論文 参考訳(メタデータ) (2020-04-14T13:16:36Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。