論文の概要: Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2010.06218v1
- Date: Tue, 13 Oct 2020 08:01:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:56:29.709412
- Title: Self-Supervised Multi-View Synchronization Learning for 3D Pose
Estimation
- Title(参考訳): 3次元ポーズ推定のための自己教師付きマルチビュー同期学習
- Authors: Simon Jenni, Paolo Favaro
- Abstract要約: 現在の方法では、画像の大規模なデータセットと対応するスケルトンポーズに基づいてニューラルネットワークをトレーニングすることで、学習問題としてモノラルな3次元ポーズ推定が採用されている。
そこで本稿では,ラベルなしデータセットの自己教師付き学習を通じて事前学習した微調整ネットワークによって,小さな注釈付きデータセットを活用できるアプローチを提案する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
- 参考スコア(独自算出の注目度): 39.334995719523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art methods cast monocular 3D human pose estimation as a
learning problem by training neural networks on large data sets of images and
corresponding skeleton poses. In contrast, we propose an approach that can
exploit small annotated data sets by fine-tuning networks pre-trained via
self-supervised learning on (large) unlabeled data sets. To drive such networks
towards supporting 3D pose estimation during the pre-training step, we
introduce a novel self-supervised feature learning task designed to focus on
the 3D structure in an image. We exploit images extracted from videos captured
with a multi-view camera system. The task is to classify whether two images
depict two views of the same scene up to a rigid transformation. In a
multi-view data set, where objects deform in a non-rigid manner, a rigid
transformation occurs only between two views taken at the exact same time,
i.e., when they are synchronized. We demonstrate the effectiveness of the
synchronization task on the Human3.6M data set and achieve state-of-the-art
results in 3D human pose estimation.
- Abstract(参考訳): 画像と対応する骨格ポーズの大規模なデータセット上でニューラルネットワークをトレーニングすることで、モノキュラーな3次元ポーズ推定を学習問題として採用している。
対照的に,未ラベルデータセット上で自己教師あり学習によって事前学習されたネットワークを微調整することにより,小さな注釈付きデータセットを活用できる手法を提案する。
事前学習段階における3次元ポーズ推定を支援するために,画像中の3次元構造に焦点をあてた自己教師型特徴学習タスクを導入する。
マルチビューカメラシステムを用いて,映像から抽出した画像を活用した。
タスクは、2つのイメージが同じシーンの2つのビューを厳格な変換まで描いているかどうかを分類することである。
オブジェクトが非厳密な方法で変形するマルチビューデータセットでは、厳格な変換は2つのビュー間でのみ、すなわち同期された時にのみ発生する。
我々は,Human3.6Mデータセット上での同期タスクの有効性を実証し,人間の3次元ポーズ推定における最先端結果を実現する。
関連論文リスト
- Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation
Learning of Vision-based Autonomous Driving [73.3702076688159]
本稿では,コヒーレントなインスタンス表現を長期入力シーケンスで学習するための,新しいコントラスト学習アルゴリズムであるCohere3Dを提案する。
我々は,様々な下流認識,予測,計画タスクにおいて,事前学習したモデルを微調整することにより,アルゴリズムを評価する。
論文 参考訳(メタデータ) (2024-02-23T19:43:01Z) - Enhancing Egocentric 3D Pose Estimation with Third Person Views [37.9683439632693]
本研究では,1台のウェアラブルカメラから撮影した映像から計算した人物の3次元身振り推定を強化する新しい手法を提案する。
First2Third-Poseは、最初の視点と第三視点の両方から捉えた人間の活動を描いた2000近いビデオからなる、ペア化された新しい同期データセットである。
実験により,データセットを用いて学習した多視点埋め込み空間は,任意の単視点自我中心ビデオから識別的特徴を抽出するのに有用であることが示された。
論文 参考訳(メタデータ) (2022-01-06T11:42:01Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - Self-supervised Feature Learning by Cross-modality and Cross-view
Correspondences [32.01548991331616]
本稿では,2次元画像特徴と3次元ポイントクラウド特徴の両方を学習するための,自己指導型学習手法を提案する。
注釈付きラベルを使わずに、クロスモダリティとクロスビュー対応を利用する。
学習した2次元特徴と3次元特徴の有効性を5つの異なるタスクで伝達することによって評価する。
論文 参考訳(メタデータ) (2020-04-13T02:57:25Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。