Fugu-MT 論文翻訳(概要): Progressive Multi-view Human Mesh Recovery with Self-Supervision

論文の概要: Progressive Multi-view Human Mesh Recovery with Self-Supervision

arxiv url: http://arxiv.org/abs/2212.05223v1
Date: Sat, 10 Dec 2022 06:28:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-13 15:18:48.209922
Title: Progressive Multi-view Human Mesh Recovery with Self-Supervision
Title（参考訳）: 自己スーパービジョンによるプログレッシブ・マルチビューヒューマンメッシュ回復
Authors: Xuan Gong, Liangchen Song, Meng Zheng, Benjamin Planche, Terrence Chen, Junsong Yuan, David Doermann, Ziyan Wu
Abstract要約: 既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
参考スコア（独自算出の注目度）: 68.60019434498703
License: http://creativecommons.org/licenses/by/4.0/
Abstract: To date, little attention has been given to multi-view 3D human mesh estimation, despite real-life applicability (e.g., motion capture, sport analysis) and robustness to single-view ambiguities. Existing solutions typically suffer from poor generalization performance to new settings, largely due to the limited diversity of image-mesh pairs in multi-view training data. To address this shortcoming, people have explored the use of synthetic images. But besides the usual impact of visual gap between rendered and target data, synthetic-data-driven multi-view estimators also suffer from overfitting to the camera viewpoint distribution sampled during training which usually differs from real-world distributions. Tackling both challenges, we propose a novel simulation-based training pipeline for multi-view human mesh recovery, which (a) relies on intermediate 2D representations which are more robust to synthetic-to-real domain gap; (b) leverages learnable calibration and triangulation to adapt to more diversified camera setups; and (c) progressively aggregates multi-view information in a canonical 3D space to remove ambiguities in 2D representations. Through extensive benchmarking, we demonstrate the superiority of the proposed solution especially for unseen in-the-wild scenarios.
Abstract（参考訳）: これまでマルチビューの3次元メッシュ推定にはほとんど注意が払われていないが、現実の応用性(モーションキャプチャ、スポーツ分析など)や、シングルビューのあいまいさに対する堅牢性がある。既存のソリューションは、主にマルチビュートレーニングデータにおける画像-メッシュペアの多様性の制限により、一般化性能の低下と新しい設定に悩まされる。この欠点に対処するために、人々は合成画像の使用を探求した。しかし、レンダリングデータとターゲットデータの間の視覚差の通常の影響に加えて、合成データ駆動のマルチビュー推定器は、トレーニング中にサンプリングされたカメラ視点分布に過度にフィットする。両課題に対処し,マルチビューヒューマンメッシュ回復のためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。 (a)合成-実領域ギャップに対してより堅牢な中間2次元表現に依存する。 (b)より多様なカメラ設備に適応するために学習可能な校正と三角測量を利用する。 (c)2次元表現の曖昧さを取り除くために、徐々に正準3次元空間に多視点情報を集約する。広範囲なベンチマークを通じて,提案手法の優位性を実証する。

関連論文リスト

DeProPose: Deficiency-Proof 3D Human Pose Estimation via Adaptive Multi-View Fusion [57.83515140886807]
欠陥認識型3Dポーズ推定の課題について紹介する。 DeProPoseは、トレーニングの複雑さを減らすために、ネットワークアーキテクチャをシンプルにするためのフレキシブルなメソッドである。我々は,新しい3次元ポーズ推定データセットを開発した。
論文参考訳（メタデータ） (2025-02-23T03:22:54Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
MagicMan: Generative Novel View Synthesis of Humans with 3D-Aware Diffusion and Iterative Refinement [23.707586182294932]
単一画像再構成における既存の作業は、訓練データ不足や総合的な多視点知識の欠如による3次元不整合により、弱い一般化性に悩まされている。単一の参照画像から高品質な新規ビュー画像を生成するために設計された,人間固有の多視点拡散モデルであるMagicManを紹介する。
論文参考訳（メタデータ） (2024-08-26T12:10:52Z)
Deceptive-NeRF/3DGS: Diffusion-Generated Pseudo-Observations for High-Quality Sparse-View Reconstruction [60.52716381465063]
我々は,限られた入力画像のみを用いて,スパースビュー再構成を改善するために,Deceptive-NeRF/3DGSを導入した。具体的には,少数視点再構成によるノイズ画像から高品質な擬似観測へ変換する,偽拡散モデルを提案する。本システムでは,拡散生成擬似観測をトレーニング画像集合に徐々に組み込んで,スパース入力観測を5倍から10倍に高めている。
論文参考訳（メタデータ） (2023-05-24T14:00:32Z)
Self-supervised Human Mesh Recovery with Cross-Representation Alignment [20.69546341109787]
自己教師付きヒューマンメッシュリカバリ手法は、3Dアノテーション付きベンチマークデータセットの可用性と多様性が制限されているため、一般化性が低い。頑健だがスパースな表現(2Dキーポイント)からの相補的情報を利用した相互表現アライメントを提案する。この適応的相互表現アライメントは、偏差から明示的に学習し、相補的な情報(疎表現からの豊かさと密表現からの堅牢さ)をキャプチャする。
論文参考訳（メタデータ） (2022-09-10T04:47:20Z)
Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文参考訳（メタデータ） (2022-03-29T07:14:58Z)
Kinematic-Structure-Preserved Representation for Unsupervised 3D Human Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文参考訳（メタデータ） (2020-06-24T23:56:33Z)
Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。提案手法を2つの大規模データセット上で評価する。
論文参考訳（メタデータ） (2020-03-17T08:47:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。