論文の概要: Progressive Multi-view Human Mesh Recovery with Self-Supervision
- arxiv url: http://arxiv.org/abs/2212.05223v1
- Date: Sat, 10 Dec 2022 06:28:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 15:18:48.209922
- Title: Progressive Multi-view Human Mesh Recovery with Self-Supervision
- Title(参考訳): 自己スーパービジョンによるプログレッシブ・マルチビューヒューマンメッシュ回復
- Authors: Xuan Gong, Liangchen Song, Meng Zheng, Benjamin Planche, Terrence
Chen, Junsong Yuan, David Doermann, Ziyan Wu
- Abstract要約: 既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
- 参考スコア(独自算出の注目度): 68.60019434498703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To date, little attention has been given to multi-view 3D human mesh
estimation, despite real-life applicability (e.g., motion capture, sport
analysis) and robustness to single-view ambiguities. Existing solutions
typically suffer from poor generalization performance to new settings, largely
due to the limited diversity of image-mesh pairs in multi-view training data.
To address this shortcoming, people have explored the use of synthetic images.
But besides the usual impact of visual gap between rendered and target data,
synthetic-data-driven multi-view estimators also suffer from overfitting to the
camera viewpoint distribution sampled during training which usually differs
from real-world distributions. Tackling both challenges, we propose a novel
simulation-based training pipeline for multi-view human mesh recovery, which
(a) relies on intermediate 2D representations which are more robust to
synthetic-to-real domain gap; (b) leverages learnable calibration and
triangulation to adapt to more diversified camera setups; and (c) progressively
aggregates multi-view information in a canonical 3D space to remove ambiguities
in 2D representations. Through extensive benchmarking, we demonstrate the
superiority of the proposed solution especially for unseen in-the-wild
scenarios.
- Abstract(参考訳): これまでマルチビューの3次元メッシュ推定にはほとんど注意が払われていないが、現実の応用性(モーションキャプチャ、スポーツ分析など)や、シングルビューのあいまいさに対する堅牢性がある。
既存のソリューションは、主にマルチビュートレーニングデータにおける画像-メッシュペアの多様性の制限により、一般化性能の低下と新しい設定に悩まされる。
この欠点に対処するために、人々は合成画像の使用を探求した。
しかし、レンダリングデータとターゲットデータの間の視覚差の通常の影響に加えて、合成データ駆動のマルチビュー推定器は、トレーニング中にサンプリングされたカメラ視点分布に過度にフィットする。
両課題に対処し,マルチビューヒューマンメッシュ回復のためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
(a)合成-実領域ギャップに対してより堅牢な中間2次元表現に依存する。
(b)より多様なカメラ設備に適応するために学習可能な校正と三角測量を利用する。
(c)2次元表現の曖昧さを取り除くために、徐々に正準3次元空間に多視点情報を集約する。
広範囲なベンチマークを通じて,提案手法の優位性を実証する。
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。
単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文 参考訳(メタデータ) (2024-08-26T12:10:52Z) - Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。
具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。
本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文 参考訳(メタデータ) (2023-05-24T14:00:32Z) - Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。
頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。
この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文 参考訳(メタデータ) (2022-09-10T04:47:20Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。