論文の概要: Test-Time Personalization with a Transformer for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2107.02133v1
- Date: Mon, 5 Jul 2021 16:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:56:35.061935
- Title: Test-Time Personalization with a Transformer for Human Pose Estimation
- Title(参考訳): 人間のポーズ推定のためのトランスフォーマによるテスト時間パーソナライゼーション
- Authors: Miao Hao, Yizhuo Li, Zonglin Di, Nitesh B. Gundavarapu, Xiaolong Wang
- Abstract要約: 我々は、個人固有の情報を活用するために、テスト期間中にポーズ推定装置を適応させる。
自己教師型パーソナライゼーションによるポーズ推定の大幅な改善を示す。
- 参考スコア(独自算出の注目度): 10.776892578762721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to personalize a human pose estimator given a set of test images
of a person without using any manual annotations. While there is a significant
advancement in human pose estimation, it is still very challenging for a model
to generalize to different unknown environments and unseen persons. Instead of
using a fixed model for every test case, we adapt our pose estimator during
test time to exploit person-specific information. We first train our model on
diverse data with both a supervised and a self-supervised pose estimation
objectives jointly. We use a Transformer model to build a transformation
between the self-supervised keypoints and the supervised keypoints. During test
time, we personalize and adapt our model by fine-tuning with the
self-supervised objective. The pose is then improved by transforming the
updated self-supervised keypoints. We experiment with multiple datasets and
show significant improvements on pose estimations with our self-supervised
personalization.
- Abstract(参考訳): 手動アノテーションを使わずに、人物のテスト画像のセットを与えられた人間のポーズ推定器をパーソナライズすることを提案する。
人間のポーズ推定には大きな進歩があるが、モデルが異なる未知の環境や目に見えない人に一般化することは依然として非常に困難である。
テストケース毎に固定モデルを使用する代わりに、テスト期間中にポーズ推定器を適用して、個人固有の情報を活用する。
まず、教師付きと自己監督型の両方のポーズ推定目標を併用して、多様なデータに基づいてモデルをトレーニングする。
トランスフォーマーモデルを用いて、自己教師付きキーポイントと教師付きキーポイントの間の変換を構築する。
テスト期間中は、自己監督対象を微調整することでモデルをパーソナライズし、適応させます。
その後、更新された自己教師付きキーポイントを変換することでポーズが改善される。
複数のデータセットを実験し,自己教師付きパーソナライゼーションによるポーズ推定において有意な改善を示した。
関連論文リスト
- Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions [57.871692507044344]
ポース推定は、単眼画像を用いて人や動物の解剖学的キーポイントを正確に同定することを目的としている。
現在のモデルは一般的に、クリーンなデータに基づいてトレーニングされ、テストされる。
実世界の腐敗に対するポーズ推定モデルの堅牢性を評価するためのベンチマークであるPoseBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-20T14:40:17Z) - Personalized Pose Forecasting [28.46838162184121]
本研究では,人間の動作予測問題を再構築し,モデルに依存しないパーソナライズ手法を提案する。
低パラメトリック時系列解析モデルを用いて、動き予測パーソナライズを効率的にオンラインで行うことができる。
論文 参考訳(メタデータ) (2023-12-06T14:43:38Z) - YOLOPose V2: Understanding and Improving Transformer-based 6D Pose
Estimation [36.067414358144816]
YOLOPoseはトランスフォーマーベースの多目的6Dポーズ推定法である。
キーポイントから向きを予測するために,学習可能な向き推定モジュールを用いる。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2023-07-21T12:53:54Z) - Meta-Auxiliary Learning for Adaptive Human Pose Prediction [26.877194503491072]
高忠実な未来の人間のポーズを予測することは、インテリジェントロボットが人間と対話する上で決定的だ。
ディープラーニングアプローチは、通常、外部データセット上で一般的なトレーニング済みモデルをトレーニングし、すべてのテストサンプルに直接適用する。
本稿では,2つの自己監督型補助タスクを活用するテスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-13T11:17:09Z) - YOLOPose: Transformer-based Multi-Object 6D Pose Estimation using
Keypoint Regression [44.282841879849244]
キーポイント回帰に基づくトランスフォーマーに基づく多目的6Dポーズ推定手法YOLOPoseを提案する。
提案手法はリアルタイムアプリケーションに適した手法であり,最先端の手法に匹敵する結果が得られる。
論文 参考訳(メタデータ) (2022-05-05T09:51:39Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - FixMyPose: Pose Correctional Captioning and Retrieval [67.20888060019028]
本稿では,自動ポーズ修正システムに対応する新しいキャプションデータセットfixmyposeを提案する。
我々は「現在の」ポーズを「ターゲット」ポーズのように見えるように修正する記述を収集する。
MLバイアスを避けるため、さまざまな階層を持つキャラクタ間のバランスを維持します。
論文 参考訳(メタデータ) (2021-04-04T21:45:44Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。