論文の概要: Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency
- arxiv url: http://arxiv.org/abs/2110.05458v1
- Date: Mon, 11 Oct 2021 17:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 18:29:19.968634
- Title: Learning Realistic Human Reposing using Cyclic Self-Supervision with 3D
Shape, Pose, and Appearance Consistency
- Title(参考訳): 3次元形状, 姿勢, 外観整合性を考慮した周期的自己スーパービジョンによるリアルなヒューマン・リポーティングの学習
- Authors: Soubhik Sanyal and Alex Vorobiov and Timo Bolkart and Matthew Loper
and Betty Mohler and Larry Davis and Javier Romero and Michael J. Black
- Abstract要約: 画像品質のギャップを教師付き手法で埋める自己教師型フレームワークSPICEを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
SPICEはDeepFashionデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 55.94908688207493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing images of a person in novel poses from a single image is a
highly ambiguous task. Most existing approaches require paired training images;
i.e. images of the same person with the same clothing in different poses.
However, obtaining sufficiently large datasets with paired data is challenging
and costly. Previous methods that forego paired supervision lack realism. We
propose a self-supervised framework named SPICE (Self-supervised Person Image
CrEation) that closes the image quality gap with supervised methods. The key
insight enabling self-supervision is to exploit 3D information about the human
body in several ways. First, the 3D body shape must remain unchanged when
reposing. Second, representing body pose in 3D enables reasoning about self
occlusions. Third, 3D body parts that are visible before and after reposing,
should have similar appearance features. Once trained, SPICE takes an image of
a person and generates a new image of that person in a new target pose. SPICE
achieves state-of-the-art performance on the DeepFashion dataset, improving the
FID score from 29.9 to 7.8 compared with previous unsupervised methods, and
with performance similar to the state-of-the-art supervised method (6.4). SPICE
also generates temporally coherent videos given an input image and a sequence
of poses, despite being trained on static images only.
- Abstract(参考訳): 一つの画像から新しいポーズの人のイメージを合成することは、非常にあいまいな作業である。
既存のほとんどのアプローチでは、ペアのトレーニングイメージ、すなわち、異なるポーズで同じ服を着た同じ人のイメージが必要です。
しかし、ペアデータで十分な規模のデータセットを得ることは困難でコストがかかる。
ペアの監督を先取りする以前の方法は現実主義を欠いている。
本研究では,SPICE (Self-supervised Person Image CrEation) という自己監督型フレームワークを提案する。
自己超越を可能にする重要な洞察は、様々な方法で人体に関する3D情報を活用することである。
第一に、3dボディ形状はレポジトリ時に変化し続けなければならない。
第二に、身体のポーズを3Dで表現することで、自己閉塞についての推論が可能になる。
第3に、再現前後に見える3Dボディパーツには、類似した外観特徴がある。
訓練が終わると、SPICEは人の画像を撮って、その人の新しいイメージを新しいターゲットのポーズで生成する。
SPICEはDeepFashionデータセットで最先端のパフォーマンスを達成し、従来の教師なし手法と比較してFIDスコアを29.9から7.8に改善し、最先端の教師付き手法(6.4)に類似したパフォーマンスを持つ。
SPICEはまた、静的画像のみでトレーニングされているにもかかわらず、入力画像とポーズのシーケンスが与えられた時間的に一貫性のあるビデオを生成する。
関連論文リスト
- Synthesizing Moving People with 3D Control [88.68284137105654]
対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
論文 参考訳(メタデータ) (2024-01-19T18:59:11Z) - Understanding Pose and Appearance Disentanglement in 3D Human Pose
Estimation [72.50214227616728]
ポーズ情報から外見情報を引き離すために,自己教師型で画像表現を学習する手法がいくつか提案されている。
我々は,多種多様な画像合成実験を通じて,自己教師ネットワークの観点から,ゆがみについて検討する。
我々は,対象の自然な外見変化を生起することに焦点を当てた敵対的戦略を設計し,その反対に,絡み合ったネットワークが堅牢であることを期待している。
論文 参考訳(メタデータ) (2023-09-20T22:22:21Z) - Self-supervised 3D Human Pose Estimation from a Single Image [1.0878040851638]
本研究では,1枚の画像から3次元人体ポーズを予測する自己教師型手法を提案する。
予測ネットワークは、典型的なポーズの人物と、未ペアの2Dポーズのセットを描写した未ラベル画像のデータセットから訓練される。
論文 参考訳(メタデータ) (2023-04-05T10:26:21Z) - Single-view 3D Body and Cloth Reconstruction under Complex Poses [37.86174829271747]
既存の暗黙の関数ベースモデルを拡張して、任意のポーズと自己排他的な手足を持つ人間の画像を扱う。
入力画像を低精細度で3次元のボディ形状にマッピングする暗黙の関数を学習する。
次に、スムーズな表面を条件とした変位マップを学習し、衣服や身体の高周波の詳細を符号化する。
論文 参考訳(メタデータ) (2022-05-09T07:34:06Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z) - Neural 3D Clothes Retargeting from a Single Image [91.5030622330039]
本稿では,1枚のRGB画像で人物にフィットする3次元衣料テンプレートモデルの潜在的なポーズと変形を生成する方法を提案する。
この問題は、地上の真実データを取得することは不可能である、すなわち、異なる3D衣料品テンプレートモデルを全く同じポーズで身に着けている人々の画像として、基本的には不適切である。
そこで本研究では,3次元変形の物理的妥当性を検証するための半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-29T20:50:34Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。