論文の概要: Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh
Estimation in Videos
- arxiv url: http://arxiv.org/abs/2012.03205v1
- Date: Sun, 6 Dec 2020 07:54:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:57:52.807012
- Title: Temporal-Aware Self-Supervised Learning for 3D Hand Pose and Mesh
Estimation in Videos
- Title(参考訳): ビデオにおける3次元ハンドポーズとメッシュ推定のための時間認識自己教師付き学習
- Authors: Liangjian Chen, Shih-Yao Lin, Yusheng Xie, Yen-Yu Lin, and Xiaohui Xie
- Abstract要約: RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズで深層モデルを訓練することで、近年着実に進歩している。
本稿では,RGB画像からの3Dポーズ推定モデルの訓練を行うためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.12879364117658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D hand pose directly from RGB imagesis challenging but has gained
steady progress recently bytraining deep models with annotated 3D poses.
Howeverannotating 3D poses is difficult and as such only a few 3Dhand pose
datasets are available, all with limited samplesizes. In this study, we propose
a new framework of training3D pose estimation models from RGB images without
usingexplicit 3D annotations, i.e., trained with only 2D informa-tion. Our
framework is motivated by two observations: 1)Videos provide richer information
for estimating 3D posesas opposed to static images; 2) Estimated 3D poses
oughtto be consistent whether the videos are viewed in the for-ward order or
reverse order. We leverage these two obser-vations to develop a self-supervised
learning model calledtemporal-aware self-supervised network (TASSN). By
en-forcing temporal consistency constraints, TASSN learns 3Dhand poses and
meshes from videos with only 2D keypointposition annotations. Experiments show
that our modelachieves surprisingly good results, with 3D estimation ac-curacy
on par with the state-of-the-art models trained with3D annotations,
highlighting the benefit of the temporalconsistency in constraining 3D
prediction models.
- Abstract(参考訳): RGB画像から直接3Dハンドポーズを推定することは難しいが、注釈付き3Dポーズでディープモデルを訓練することで、近年着実に進歩している。
しかし、3Dポーズの注釈付けは困難であり、少数の3Dポーズデータセットしか利用できない。
本研究では,rgb画像から2次元情報のみを用いて学習した3次元アノテーションを用いずに,新たな3次元ポーズ推定モデルを提案する。
1)静的な画像とは対照的に3Dのポーズを推定するためのリッチな情報を提供する; 2) 推定された3Dのポーズは、ビデオが前方の順か逆の順かに一貫性があるべきである。
この2つのobser-vationを用いて,tassn(temporal-aware self-supervised network)と呼ばれる自己教師付き学習モデルを開発した。
時間的一貫性の制約を強制することにより、TASSNは2Dキーポイントポジションアノテーションだけでビデオから3Dポーズとメッシュを学ぶ。
3dアノテーションでトレーニングされた最先端モデルと同等の3d推定ac-curacyを用いて,3d予測モデルの時間的一貫性のメリットを強調する実験を行った。
関連論文リスト
- SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Probing the 3D Awareness of Visual Foundation Models [56.68380136809413]
視覚基礎モデルの3次元認識を解析する。
凍結した特徴に対するタスク固有プローブとゼロショット推論手法を用いて実験を行う。
論文 参考訳(メタデータ) (2024-04-12T17:58:04Z) - Weakly-supervised Pre-training for 3D Human Pose Estimation via
Perspective Knowledge [36.65402869749077]
本研究では,3次元ポーズを監督せずに2次元画像から直接弱い3次元情報を抽出する手法を提案する。
画像中の2点間の深度関係を識別するために,弱教師付き事前学習(WSP)戦略を提案する。
WSPは2つの広く使用されているベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-22T03:35:15Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - TriPose: A Weakly-Supervised 3D Human Pose Estimation via Triangulation
from Video [23.00696619207748]
ビデオから3D人間のポーズを推定することは難しい問題です。
3Dヒューマンポーズアノテーションの欠如は、教師付きトレーニングと、見えないデータセットへの一般化の大きな障害です。
3dアノテーションやキャリブレーションカメラを必要としない弱い教師付きトレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-14T00:46:48Z) - Model-based 3D Hand Reconstruction via Self-Supervised Learning [72.0817813032385]
シングルビューのRGB画像から3Dハンドを再構成することは、様々な手構成と深さのあいまいさのために困難である。
ポーズ, 形状, テクスチャ, カメラ視点を共同で推定できる, 自己教師型3Dハンド再構成ネットワークであるS2HANDを提案する。
初めて手動アノテーションを使わずに、正確な3D手の再構築ネットワークを訓練できることを実証しました。
論文 参考訳(メタデータ) (2021-03-22T10:12:43Z) - MM-Hand: 3D-Aware Multi-Modal Guided Hand Generative Network for 3D Hand
Pose Synthesis [81.40640219844197]
モノラルなRGB画像から3Dハンドポーズを推定することは重要だが難しい。
解決策は、高精度な3D手指キーポイントアノテーションを用いた大規模RGB手指画像のトレーニングである。
我々は,現実的で多様な3次元ポーズ保存ハンドイメージを合成する学習ベースアプローチを開発した。
論文 参考訳(メタデータ) (2020-10-02T18:27:34Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。