論文の概要: Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2012.01511v2
- Date: Thu, 25 Mar 2021 18:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 04:09:13.011547
- Title: Unsupervised Learning on Monocular Videos for 3D Human Pose Estimation
- Title(参考訳): 3次元ポーズ推定のための単眼映像の教師なし学習
- Authors: Sina Honari, Victor Constantin, Helge Rhodin, Mathieu Salzmann, Pascal
Fua
- Abstract要約: コントラッシブな自己教師学習を用いて、シングルビュービデオからリッチな潜伏ベクトルを抽出する。
また,CSSを時間変化の特徴のみに適用すると同時に,入力を再構築し,近辺と遠方の特徴間の段階的な遷移を促すことにより,リッチな潜伏空間が得られることを示す。
本手法は他の教師なしシングルビュー手法よりも優れており,マルチビュー手法の性能と一致している。
- 参考スコア(独自算出の注目度): 121.5383855764944
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the presence of annotated data, deep human pose estimation networks yield
impressive performance. Nevertheless, annotating new data is extremely
time-consuming, particularly in real-world conditions. Here, we address this by
leveraging contrastive self-supervised (CSS) learning to extract rich latent
vectors from single-view videos. Instead of simply treating the latent features
of nearby frames as positive pairs and those of temporally-distant ones as
negative pairs as in other CSS approaches, we explicitly disentangle each
latent vector into a time-variant component and a time-invariant one. We then
show that applying CSS only to the time-variant features, while also
reconstructing the input and encouraging a gradual transition between nearby
and away features, yields a rich latent space, well-suited for human pose
estimation. Our approach outperforms other unsupervised single-view methods and
matches the performance of multi-view techniques.
- Abstract(参考訳): 注釈付きデータが存在する場合、深い人間のポーズ推定ネットワークは印象的なパフォーマンスをもたらす。
それでも、特に現実世界の環境では、新しいデータを注釈付けるのは非常に時間がかかる。
ここでは,コントラスト的自己教師付き(css)学習を利用して,シングルビュービデオからリッチな潜在ベクトルを抽出する。
他のcssアプローチのように、近傍のフレームの潜性特徴を単に正のペアとして扱う代わりに、各潜性ベクトルを時間変化成分と時間不変の要素に明示的に分離する。
次に,cssを時間変化特性のみに適用すると同時に,入力を再構成し,近傍特徴と離れた特徴の段階的な遷移を促すことにより,人間のポーズ推定に適した,豊かな潜在空間が得られることを示す。
提案手法は他の教師なし単一ビュー手法よりも優れており,マルチビュー手法の性能に適合する。
関連論文リスト
- A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Spatio-Temporal Self-Attention Network for Video Saliency Prediction [13.873682190242365]
3D畳み込みニューラルネットワークは、コンピュータビジョンにおけるビデオタスクに対して有望な結果を得た。
本稿では,ビデオ・サリエンシ予測のための時空間自己注意3ネットワーク(STSANet)を提案する。
論文 参考訳(メタデータ) (2021-08-24T12:52:47Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - A Large-Scale Study on Unsupervised Spatiotemporal Representation
Learning [60.720251418816815]
本稿では,ビデオからの教師なし表現学習に関する大規模研究を行う。
目的は同じビデオにおける時間的特徴を奨励する。
長時間持続を奨励することは,60秒であっても有効であることがわかった。
論文 参考訳(メタデータ) (2021-04-29T17:59:53Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z) - 3D Human Pose Estimation using Spatio-Temporal Networks with Explicit
Occlusion Training [40.933783830017035]
近年の大きな進歩にもかかわらず、モノラルなタスクから3Dのポーズを推定することは依然として難しい課題である。
頑健な3次元ポーズ推定のための時間的ビデオネットワークを提案する。
本研究では,各フレームに2次元関節やキーポイントの予測,および3次元関節やキーポイントを推定するために,多段階の時間的畳み込みネットワーク(TCN)を適用した。
論文 参考訳(メタデータ) (2020-04-07T09:12:12Z) - Deep Reinforcement Learning for Active Human Pose Estimation [35.229529080763925]
完全トレーニング可能な深層強化学習型アクティブポーズ推定アーキテクチャであるPose-DRLを紹介する。
提案モデルでは,強い多視点ベースラインと比較して,より正確なポーズ推定を行う視点を選択することを学習している。
論文 参考訳(メタデータ) (2020-01-07T13:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。