Fugu-MT 論文翻訳(概要): VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation

論文の概要: VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation

arxiv url: http://arxiv.org/abs/2410.18723v2
Date: Wed, 13 Nov 2024 12:02:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.92206
Title: VoxelKeypointFusion: Generalizable Multi-View Multi-Person Pose Estimation
Title（参考訳）: VoxelKeypointFusion: 一般化可能なマルチパーソンポーズ推定
Authors: Daniel Bermuth, Alexander Poeppel, Wolfgang Reif,
Abstract要約: 本研究では,多視点多人数ポーズ推定器のデータセットに対する一般化能力の評価を行う。また、深度情報を利用した改良も検討している。この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。
参考スコア（独自算出の注目度）: 45.085830389820956
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: In the rapidly evolving field of computer vision, the task of accurately estimating the poses of multiple individuals from various viewpoints presents a formidable challenge, especially if the estimations should be reliable as well. This work presents an extensive evaluation of the generalization capabilities of multi-view multi-person pose estimators to unseen datasets and presents a new algorithm with strong performance in this task. It also studies the improvements by additionally using depth information. Since the new approach can not only generalize well to unseen datasets, but also to different keypoints, the first multi-view multi-person whole-body estimator is presented. To support further research on those topics, all of the work is publicly accessible.
Abstract（参考訳）: コンピュータビジョンの急速に発展する分野において、様々な視点から複数の個人のポーズを正確に推定するタスクは、特にその推定が信頼されるべきである場合、恐ろしい挑戦となる。本研究は,多視点多人数ポーズ推定器のデータセットに対する一般化能力を広範囲に評価し,この課題に強い性能を持つ新しいアルゴリズムを提案する。また、深度情報を利用した改良も検討している。この新しいアプローチは、未知のデータセットだけでなく、異なるキーポイントにもうまく一般化できるため、最初のマルチパーソン全体の推定器が提示される。これらのトピックに関するさらなる研究を支援するため、すべての研究が一般に公開されている。

関連論文リスト

RapidPoseTriangulation: Multi-view Multi-person Whole-body Human Pose Triangulation in a Millisecond [45.085830389820956]
本研究は,高速三角測量速度と優れた一般化機能に着目し,多視点多人数ポーズ推定を改善するアルゴリズムを提案する。アプローチは全身のポーズ推定にまで拡張され、表情から複数の個人と視点にわたる指の動きまでの詳細を捉えている。
論文参考訳（メタデータ） (2025-03-27T16:57:33Z)
SimpleDepthPose: Fast and Reliable Human Pose Estimation with RGBD-Images [45.085830389820956]
本稿では,深度情報を組み込んだ多視点多人数ポーズ推定アルゴリズムを提案する。広範に評価した結果,提案アルゴリズムは未知のデータセットをうまく一般化するだけでなく,高速な実行性能を示すとともに,異なるキーポイントにも適応可能であることがわかった。
論文参考訳（メタデータ） (2025-01-30T16:51:40Z)
Scaling Up Personalized Image Aesthetic Assessment via Task Vector Customization [37.66059382315255]
本稿では,画像の審美性評価や画質評価に手軽に利用できるデータベースを活用する,ユニークなアプローチを提案する。各データベースの特徴を表すタスクベクトルの最適な組み合わせを決定することにより、個人向けにパーソナライズされたモデルを作成することに成功した。
論文参考訳（メタデータ） (2024-07-09T18:42:41Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。 2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。 Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文参考訳（メタデータ） (2023-12-09T10:36:43Z)
HaMuCo: Hand Pose Estimation via Multiview Collaborative Self-Supervised Learning [19.432034725468217]
HaMuCoは、多視点擬似2Dラベルから一視点手ポーズ推定器を学習する自己教師型学習フレームワークである。本稿では, クロスビュー対応機能を利用して, シングルビュー推定器を蒸留するクロスビューインタラクションネットワークを提案する。提案手法は,多視点自己監督型ポーズ推定における最先端性能を実現する。
論文参考訳（メタデータ） (2023-02-02T10:13:04Z)
Two-level Data Augmentation for Calibrated Multi-view Detection [51.5746691103591]
ビュー間のアライメントを保った新しいマルチビューデータ拡張パイプラインを導入する。また,シーンレベルで直接適用された第2レベルの拡張を提案する。単純なマルチビュー検出モデルと組み合わせることで、2レベル拡張パイプラインは既存のベースラインすべてより優れています。
論文参考訳（メタデータ） (2022-10-19T17:55:13Z)
Multi-View representation learning in Multi-Task Scene [4.509968166110557]
我々は,MTMVCSF(Common and Special Features)に基づくマルチタスク多視点学習(multi-Task Multi-View learning)と呼ばれる,新しい半教師付きアルゴリズムを提案する。 AN-MTMVCSFと呼ばれるマルチタスク・マルチタスク・マルチビュー・アルゴリズムが提案されている。これらのアルゴリズムの有効性は、実世界と合成データの双方でよく設計された実験によって証明される。
論文参考訳（メタデータ） (2022-01-15T11:26:28Z)
Uncertainty-Aware Multi-View Representation Learning [53.06828186507994]
動的不確実性認識ネットワーク(DUA-Nets)と呼ばれる新しい教師なし多視点学習手法を考案する。生成視点から推定されるデータの不確実性により、複数の視点からの固有情報が統合され、ノイズのない表現が得られる。本モデルでは, 広範囲な実験において優れた性能を示し, ノイズの多いデータに対するロバスト性を示す。
論文参考訳（メタデータ） (2022-01-15T07:16:20Z)
The Multimodal Sentiment Analysis in Car Reviews (MuSe-CaR) Dataset: Collection, Insights and Improvements [14.707930573950787]
この種のマルチモーダルデータセットの1つである MuSe-CaR について述べる。このデータは、最近第1回マルチモーダルセンチメント分析チャレンジのテストベッドとして公開された。
論文参考訳（メタデータ） (2021-01-15T10:40:37Z)
Multi-Domain Adversarial Feature Generalization for Person Re-Identification [52.835955258959785]
マルチデータセット特徴一般化ネットワーク(MMFA-AAE)を提案する。複数のラベル付きデータセットから普遍的なドメイン不変の特徴表現を学習し、それを見えないカメラシステムに一般化することができる。また、最先端の教師付き手法や教師なしのドメイン適応手法を大きなマージンで超えている。
論文参考訳（メタデータ） (2020-11-25T08:03:15Z)
Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文参考訳（メタデータ） (2020-04-28T09:15:50Z)
Deep Learning for Person Re-identification: A Survey and Outlook [233.36948173686602]
人物再識別(Re-ID)は、複数の重複しないカメラを通して興味ある人物を検索することを目的としている。人物のRe-IDシステム開発に関わるコンポーネントを分離することにより、それをクローズドワールドとオープンワールドのセッティングに分類する。
論文参考訳（メタデータ） (2020-01-13T12:49:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。