論文の概要: MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2003.13239v1
- Date: Mon, 30 Mar 2020 06:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:56:27.668744
- Title: MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation
- Title(参考訳): MetaFuse: 人間の姿勢推定のための事前訓練された融合モデル
- Authors: Rongchang Xie, Chunyu Wang, Yizhou Wang
- Abstract要約: 本稿では,Panopticデータセットの多数のカメラから学習した,事前学習型核融合モデルであるMetaFuseを紹介する。
このモデルは、少数のラベル付き画像を用いて、新しい一対のカメラに対して効率よく適応または微調整することができる。
我々は、MetaFuseが公開データセットで微調整した実験において、最先端技術よりも大きなマージンで優れていることを観察する。
- 参考スコア(独自算出の注目度): 31.385876624337786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross view feature fusion is the key to address the occlusion problem in
human pose estimation. The current fusion methods need to train a separate
model for every pair of cameras making them difficult to scale. In this work,
we introduce MetaFuse, a pre-trained fusion model learned from a large number
of cameras in the Panoptic dataset. The model can be efficiently adapted or
finetuned for a new pair of cameras using a small number of labeled images. The
strong adaptation power of MetaFuse is due in large part to the proposed
factorization of the original fusion model into two parts (1) a generic fusion
model shared by all cameras, and (2) lightweight camera-dependent
transformations. Furthermore, the generic model is learned from many cameras by
a meta-learning style algorithm to maximize its adaptation capability to
various camera poses. We observe in experiments that MetaFuse finetuned on the
public datasets outperforms the state-of-the-arts by a large margin which
validates its value in practice.
- Abstract(参考訳): クロスビュー特徴融合は、人間のポーズ推定における閉塞問題に対処する鍵である。
現在の融合手法では、各カメラの異なるモデルを訓練する必要があるため、スケーリングが困難になる。
本稿では,Panopticデータセットの多数のカメラから学習した,事前学習型核融合モデルであるMetaFuseを紹介する。
このモデルは、少数のラベル付き画像を用いて、新しい一対のカメラに対して効率よく適応または微調整することができる。
MetaFuseの強力な適応力は、原核融合モデルが提案された因子を、(1)全カメラで共有される汎用核融合モデルと(2)軽量カメラ依存型変換に分解することに起因する。
さらに、多くのカメラからメタラーニングスタイルのアルゴリズムを用いて汎用モデルを学習し、様々なカメラポーズへの適応能力を最大化する。
我々は,MetaFuseが公開データセット上で微調整した実験において,その価値を実際に検証する大きなマージンで最先端の成果を上げていることを観察する。
関連論文リスト
- FusionBench: A Comprehensive Benchmark of Deep Model Fusion [78.80920533793595]
ディープモデル融合(Deep Model fusion)とは、複数のディープニューラルネットワークの予測やパラメータを単一のモデルに統合する手法である。
FusionBenchは、ディープモデル融合に特化した最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-05T13:54:28Z) - Extreme Two-View Geometry From Object Poses with Diffusion Models [21.16779160086591]
オブジェクト先行のパワーを利用して、極端な視点変化に直面した2次元幾何学を正確に決定する。
実験では, 大局的な視点変化に対して, 突如として頑健さと弾力性を示した。
論文 参考訳(メタデータ) (2024-02-05T08:18:47Z) - Rotation-Constrained Cross-View Feature Fusion for Multi-View
Appearance-based Gaze Estimation [16.43119580796718]
本研究は、一般化可能な多視点視線推定タスクと、この問題に対処するためのクロスビュー特徴融合法を提案する。
ペア画像に加えて,2台のカメラ間の相対回転行列を付加入力とする。
提案するネットワークは,相対回転を制約として,回転可能な特徴表現を抽出することを学ぶ。
論文 参考訳(メタデータ) (2023-05-22T04:29:34Z) - RelPose: Predicting Probabilistic Relative Rotation for Single Objects
in the Wild [73.1276968007689]
本稿では、任意のオブジェクトの複数の画像からカメラ視点を推定するデータ駆動手法について述べる。
本手法は, 画像の鮮明さから, 最先端のSfM法とSLAM法より優れていることを示す。
論文 参考訳(メタデータ) (2022-08-11T17:59:59Z) - Image Fusion Transformer [75.71025138448287]
画像融合では、異なるセンサから得られた画像を融合して、情報強化された単一の画像を生成する。
近年,画像融合のための有意義な特徴を符号化するために,最先端の手法で畳み込みニューラルネットワーク(CNN)が採用されている。
我々は,画像融合変換器 (IFT) を提案する。
論文 参考訳(メタデータ) (2021-07-19T16:42:49Z) - Joint Noise-Tolerant Learning and Meta Camera Shift Adaptation for
Unsupervised Person Re-Identification [60.36551512902312]
unsupervised person re-identification (re-ID) は、ラベルのないデータで識別モデルを学ぶことを目的としている。
一般的な方法としては、クラスタ化によって擬似ラベルを取得し、モデルを最適化するために使用する方法がある。
本稿では,両問題を解決するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-08T09:13:06Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - VMLoc: Variational Fusion For Learning-Based Multimodal Camera
Localization [46.607930208613574]
本稿では,センサの入力を共通の潜在空間に融合させる,VMLocと呼ばれるエンドツーエンドフレームワークを提案する。
バニラ変分オートエンコーダの目的関数を直接適用する従来のマルチモーダル変分法とは異なり、カメラのローカライゼーションを正確に推定する方法を示す。
論文 参考訳(メタデータ) (2020-03-12T14:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。