論文の概要: VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation
- arxiv url: http://arxiv.org/abs/2410.18723v2
- Date: Wed, 13 Nov 2024 12:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:28.844445
- Title: VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation
- Title(参考訳): VoxelKeypointFusion: 一般化可能なマルチパーソンポーズ推定
- Authors: Daniel Bermuth, Alexander Poeppel, Wolfgang Reif,
- Abstract要約: 本研究では,多視点多人数ポーズ推定器のデータセットに対する一般化能力の評価を行う。
また、深度情報を利用した改良も検討している。
この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。
- 参考スコア(独自算出の注目度): 45.085830389820956
- License:
- Abstract: In the rapidly evolving field of computer vision, the task of accurately estimating the poses of multiple individuals from various viewpoints presents a formidable challenge, especially if the estimations should be reliable as well. This work presents an extensive evaluation of the generalization capabilities of multi-view multi-person pose estimators to unseen datasets and presents a new algorithm with strong performance in this task. It also studies the improvements by additionally using depth information. Since the new approach can not only generalize well to unseen datasets, but also to different keypoints, the first multi-view multi-person whole-body estimator is presented. To support further research on those topics, all of the work is publicly accessible.
- Abstract(参考訳): コンピュータビジョンの急速に発展する分野において、様々な視点から複数の個人のポーズを正確に推定するタスクは、特にその推定が信頼されるべきである場合、恐ろしい挑戦となる。
本研究は,多視点多人数ポーズ推定器のデータセットに対する一般化能力を広範囲に評価し,この課題に強い性能を持つ新しいアルゴリズムを提案する。
また、深度情報を利用した改良も検討している。
この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。
これらのトピックに関するさらなる研究を支援するため、すべての研究が一般に公開されている。
関連論文リスト
- Scaling Up Personalized Image Aesthetic Assessment via Task Vector Customization [37.66059382315255]
本稿では,画像の審美性評価や画質評価に手軽に利用できるデータベースを活用する,ユニークなアプローチを提案する。
各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。
論文 参考訳(メタデータ) (2024-07-09T18:42:41Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised
Learning [19.432034725468217]
HaMuCoは、多視点擬似2Dラベルから一視点手ポーズ推定器を学習する自己教師型学習フレームワークである。
本稿では, クロスビュー対応機能を利用して, シングルビュー推定器を蒸留するクロスビューインタラクションネットワークを提案する。
提案手法は,多視点自己監督型ポーズ推定における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-02T10:13:04Z) - Two-level Data Augmentation for Calibrated Multi-view Detection [51.5746691103591]
ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。
また,シーンレベルで直接適用された第2レベルの拡張を提案する。
単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
論文 参考訳(メタデータ) (2022-10-19T17:55:13Z) - Multi-View representation learning in Multi-Task Scene [4.509968166110557]
我々は,MTMVCSF(Common and Special Features)に基づくマルチタスク多視点学習(multi-Task Multi-View learning)と呼ばれる,新しい半教師付きアルゴリズムを提案する。
AN-MTMVCSFと呼ばれるマルチタスク・マルチタスク・マルチビュー・アルゴリズムが提案されている。
これらのアルゴリズムの有効性は、実世界と合成データの双方でよく設計された実験によって証明される。
論文 参考訳(メタデータ) (2022-01-15T11:26:28Z) - Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。
生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。
本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2022-01-15T07:16:20Z) - The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset:
Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。
このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文 参考訳(メタデータ) (2021-01-15T10:40:37Z) - Multi-Domain Adversarial Feature Generalization for Person
Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。
複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。
また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文 参考訳(メタデータ) (2020-11-25T08:03:15Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z) - Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。
人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文 参考訳(メタデータ) (2020-01-13T12:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。