論文の概要: VGFlow: Visibility guided Flow Network for Human Reposing
- arxiv url: http://arxiv.org/abs/2211.08540v4
- Date: Tue, 28 Mar 2023 10:57:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 18:24:41.437971
- Title: VGFlow: Visibility guided Flow Network for Human Reposing
- Title(参考訳): VGFlow: 可視性誘導型リポジショニングのためのフローネットワーク
- Authors: Rishabh Jain, Krishna Kumar Singh, Mayur Hemani, Jingwan Lu, Mausoom
Sarkar, Duygu Ceylan, Balaji Krishnamurthy
- Abstract要約: 本稿では,人間の知覚的正確な画像を生成するためにVGFlowを提案する。
我々のモデルは、可視化誘導フローモジュールを使用して、フローを可視および可視部分へと切り離す。
VGFlowは、さまざまな画像品質指標で観察される最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 36.94334399493267
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The task of human reposing involves generating a realistic image of a person
standing in an arbitrary conceivable pose. There are multiple difficulties in
generating perceptually accurate images, and existing methods suffer from
limitations in preserving texture, maintaining pattern coherence, respecting
cloth boundaries, handling occlusions, manipulating skin generation, etc. These
difficulties are further exacerbated by the fact that the possible space of
pose orientation for humans is large and variable, the nature of clothing items
is highly non-rigid, and the diversity in body shape differs largely among the
population. To alleviate these difficulties and synthesize perceptually
accurate images, we propose VGFlow. Our model uses a visibility-guided flow
module to disentangle the flow into visible and invisible parts of the target
for simultaneous texture preservation and style manipulation. Furthermore, to
tackle distinct body shapes and avoid network artifacts, we also incorporate a
self-supervised patch-wise "realness" loss to improve the output. VGFlow
achieves state-of-the-art results as observed qualitatively and quantitatively
on different image quality metrics (SSIM, LPIPS, FID).
- Abstract(参考訳): 人間の再現のタスクは、任意の知覚可能なポーズで立っている人の現実的なイメージを生成することである。
知覚的に正確な画像を生成するには複数の困難があり、既存の方法はテクスチャの保存、パターンコヒーレンス維持、布の境界の尊重、オクルージョンの扱い、皮膚生成の操作などの制限に悩まされている。
これらの困難は、人間のポーズ指向の可能な空間が大きくて可変であり、衣料品の性質は非常に非剛性であり、身体形状の多様性は人口によって大きく異なるという事実によってさらに悪化する。
これらの困難を緩和し、知覚的精度の高い画像を合成するために、VGFlowを提案する。
本モデルでは,視認性制御フローモジュールを用いて,ターゲットの可視・視認性を分離し,テクスチャ保存とスタイル操作を同時に行う。
さらに,異なる体型に取り組み,ネットワークアーティファクトを回避するために,自己教師付きパッチワイズによる「リアルネス」損失を取り入れ,出力を改善する。
VGFlowは、画像品質の指標(SSIM、LPIPS、FID)の質的、定量的に観察される最先端の結果を達成する。
関連論文リスト
- DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images [9.768951663960257]
本稿では,画像からリアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。
まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。
第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を分離し、ノイズ予測ブロックの様々な層に供給する。
論文 参考訳(メタデータ) (2024-12-25T06:36:24Z) - Learning Flow Fields in Attention for Controllable Person Image Generation [59.10843756343987]
制御可能な人物画像生成は、参照画像に条件付けされた人物画像を生成することを目的としている。
そこで本研究では,対象クエリに対して,適切な参照キーへの参照を明示的にガイドする学習フロー場(Leffa)を提案する。
Leffaは外観(仮想試行)とポーズ(目的移動)の制御における最先端のパフォーマンスを実現し、細かなディテール歪みを著しく低減する。
論文 参考訳(メタデータ) (2024-12-11T15:51:14Z) - One-shot Human Motion Transfer via Occlusion-Robust Flow Prediction and Neural Texturing [21.613055849276385]
マルチスケールな特徴ワーピングとニューラルテクスチャマッピングを組み合わせて、2Dの外観と2.5D形状を復元する統合フレームワークを提案する。
このモデルでは,複数モーダルを共同でトレーニングし,融合させることで,幾何的誤差に対処する頑健な神経テクスチャ特性を実現する。
論文 参考訳(メタデータ) (2024-12-09T03:14:40Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。
私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文 参考訳(メタデータ) (2021-01-11T18:53:47Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z) - Enhanced Residual Networks for Context-based Image Outpainting [0.0]
深いモデルは、保持された情報を通してコンテキストや外挿を理解するのに苦労する。
現在のモデルでは、生成的敵ネットワークを使用して、局所的な画像特徴の整合性が欠如し、偽のように見える結果を生成する。
本稿では,局所的・大域的判別器の使用と,ネットワークの符号化部における残差ブロックの追加という,この問題を改善するための2つの方法を提案する。
論文 参考訳(メタデータ) (2020-05-14T05:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。