論文の概要: Progressive Multi-view Human Mesh Recovery with Self-Supervision
- arxiv url: http://arxiv.org/abs/2212.05223v1
- Date: Sat, 10 Dec 2022 06:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:18:48.209922
- Title: Progressive Multi-view Human Mesh Recovery with Self-Supervision
- Title(参考訳): 自己スーパービジョンによるプログレッシブ・マルチビューヒューマンメッシュ回復
- Authors: Xuan Gong, Liangchen Song, Meng Zheng, Benjamin Planche, Terrence
Chen, Junsong Yuan, David Doermann, Ziyan Wu
- Abstract要約: 既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 68.60019434498703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To date, little attention has been given to multi-view 3D human mesh
estimation, despite real-life applicability (e.g., motion capture, sport
analysis) and robustness to single-view ambiguities. Existing solutions
typically suffer from poor generalization performance to new settings, largely
due to the limited diversity of image-mesh pairs in multi-view training data.
To address this shortcoming, people have explored the use of synthetic images.
But besides the usual impact of visual gap between rendered and target data,
synthetic-data-driven multi-view estimators also suffer from overfitting to the
camera viewpoint distribution sampled during training which usually differs
from real-world distributions. Tackling both challenges, we propose a novel
simulation-based training pipeline for multi-view human mesh recovery, which
(a) relies on intermediate 2D representations which are more robust to
synthetic-to-real domain gap; (b) leverages learnable calibration and
triangulation to adapt to more diversified camera setups; and (c) progressively
aggregates multi-view information in a canonical 3D space to remove ambiguities
in 2D representations. Through extensive benchmarking, we demonstrate the
superiority of the proposed solution especially for unseen in-the-wild
scenarios.
- Abstract(参考訳): これまでマルチビューの3次元メッシュ推定にはほとんど注意が払われていないが、現実の応用性(モーションキャプチャ、スポーツ分析など)や、シングルビューのあいまいさに対する堅牢性がある。
既存のソリューションは、主にマルチビュートレーニングデータにおける画像-メッシュペアの多様性の制限により、一般化性能の低下と新しい設定に悩まされる。
この欠点に対処するために、人々は合成画像の使用を探求した。
しかし、レンダリングデータとターゲットデータの間の視覚差の通常の影響に加えて、合成データ駆動のマルチビュー推定器は、トレーニング中にサンプリングされたカメラ視点分布に過度にフィットする。
両課題に対処し,マルチビューヒューマンメッシュ回復のためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
(a)合成-実領域ギャップに対してより堅牢な中間2次元表現に依存する。
(b)より多様なカメラ設備に適応するために学習可能な校正と三角測量を利用する。
(c)2次元表現の曖昧さを取り除くために、徐々に正準3次元空間に多視点情報を集約する。
広範囲なベンチマークを通じて,提案手法の優位性を実証する。
関連論文リスト
- Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。
頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。
この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文 参考訳(メタデータ) (2022-09-10T04:47:20Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。