論文の概要: PIFu for the Real World: A Self-supervised Framework to Reconstruct
Dressed Human from Single-view Images
- arxiv url: http://arxiv.org/abs/2208.10769v2
- Date: Fri, 8 Mar 2024 08:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:57:27.298849
- Title: PIFu for the Real World: A Self-supervised Framework to Reconstruct
Dressed Human from Single-view Images
- Title(参考訳): pifu for the real world: ワンビュー画像から服装の人間を再構築する自己監督型フレームワーク
- Authors: Zhangyang Xiong, Dong Du, Yushuang Wu, Jingqi Dong, Di Kang, Linchao
Bao, and Xiaoguang Han
- Abstract要約: そこで本研究では,多種多様なアプリ内画像を活用するために,セルフPIFuというエンドツーエンドのセルフ教師ネットワークを提案する。
In-theld imageでは、再構成された結果についてユーザスタディを行い、その結果の選択率は、他の最先端の方法と比較して68%以上である。
- 参考スコア(独自算出の注目度): 24.124994090371647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is very challenging to accurately reconstruct sophisticated human geometry
caused by various poses and garments from a single image. Recently, works based
on pixel-aligned implicit function (PIFu) have made a big step and achieved
state-of-the-art fidelity on image-based 3D human digitization. However, the
training of PIFu relies heavily on expensive and limited 3D ground truth data
(i.e. synthetic data), thus hindering its generalization to more diverse real
world images. In this work, we propose an end-to-end self-supervised network
named SelfPIFu to utilize abundant and diverse in-the-wild images, resulting in
largely improved reconstructions when tested on unconstrained in-the-wild
images. At the core of SelfPIFu is the depth-guided volume-/surface-aware
signed distance fields (SDF) learning, which enables self-supervised learning
of a PIFu without access to GT mesh. The whole framework consists of a normal
estimator, a depth estimator, and a SDF-based PIFu and better utilizes extra
depth GT during training. Extensive experiments demonstrate the effectiveness
of our self-supervised framework and the superiority of using depth as input.
On synthetic data, our Intersection-Over-Union (IoU) achieves to 93.5%, 18%
higher compared with PIFuHD. For in-the-wild images, we conduct user studies on
the reconstructed results, the selection rate of our results is over 68%
compared with other state-of-the-art methods.
- Abstract(参考訳): 1枚の画像からさまざまなポーズや衣服が引き起こされた高度な人間の形状を正確に再構築することは極めて困難である。
近年,画素アライメント型暗黙関数(PIFu)に基づく研究が盛んに行われ,画像に基づく3次元デジタル化における最先端の忠実性を実現している。
しかし、PIFuの訓練は高価で限られた3D地上真実データ(合成データ)に大きく依存しているため、より多様な現実世界の画像への一般化を妨げている。
本研究では,多彩で多彩なインザミルド画像を利用するために,エンド・ツー・エンドのセルフ教師ネットワークであるSelfPIFuを提案する。
SelfPIFuのコアとなるのは、深度誘導された体積/地表面認識距離場(SDF)学習であり、GTメッシュにアクセスすることなくPIFuの自己教師付き学習を可能にする。
フレームワーク全体は、通常の推定器、深度推定器、およびSDFベースのPIFuで構成され、訓練中にさらに深度GTを活用する。
大規模実験により, 自己教師型フレームワークの有効性と深度を入力として利用することの優位性を示す。
IoU(Intersection-Over-Union)はPIFuHDに比べて93.5%, 18%高い値を示した。
実写画像では,再構成結果のユーザ調査を行い,その選択率は,他の最先端手法と比較して68%以上であった。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Self-Supervised 3D Human Pose Estimation with Multiple-View Geometry [2.7541825072548805]
本稿では,複数視点カメラシステムに基づく1人の人物の3次元ポーズ推定のための自己教師付き学習アルゴリズムを提案する。
そこで本研究では,2次元・3次元の立体ポーズが不要な4自由度関数学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-08-17T17:31:24Z) - Stereo Matching by Self-supervision of Multiscopic Vision [65.38359887232025]
カメラ位置の整列で撮影した複数の画像を利用したステレオマッチングのための新しい自己監視フレームワークを提案する。
ネットワークを最適化するために、クロスフォトメトリックロス、不確実性を認識した相互監督損失、および新しい平滑性損失が導入されます。
我々のモデルは、KITTIデータセット上の以前の教師なし手法よりも、より良い不均一性マップを得る。
論文 参考訳(メタデータ) (2021-04-09T02:58:59Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Multi-Person Absolute 3D Human Pose Estimation with Weak Depth
Supervision [0.0]
弱教師付きでRGB-D画像を追加してトレーニングできるネットワークを導入する。
我々のアルゴリズムは、単眼で、多人、絶対的なポーズ推定器である。
アルゴリズムを複数のベンチマークで評価し,一貫した誤差率の向上を示した。
論文 参考訳(メタデータ) (2020-04-08T13:29:22Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。