論文の概要: RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided
Image Synthesis
- arxiv url: http://arxiv.org/abs/2310.16074v1
- Date: Tue, 24 Oct 2023 15:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 19:01:11.624059
- Title: RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided
Image Synthesis
- Title(参考訳): RePoseDM: Pose Guided Image Synthesis における繰り返しポッドアライメントとグラディエントガイダンス
- Authors: Anant Khandelwal
- Abstract要約: ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。
条件付きガイダンスとしてポーズアラインメントのテクスチャ特徴を提供するために,繰り返しポーズアライメントを提案する。
また、対象のポーズを入力として与えられた有効なポーズ多様体からの距離を出力するポーズ相互作用場からの勾配誘導を提案する。
- 参考スコア(独自算出の注目度): 17.13235957832848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pose-guided person image synthesis task requires re-rendering a reference
image, which should have a photorealistic appearance and flawless pose
transfer. Since person images are highly structured, existing approaches
require dense connections for complex deformations and occlusions because these
are generally handled through multi-level warping and masking in latent space.
But the feature maps generated by convolutional neural networks do not have
equivariance, and hence even the multi-level warping does not have a perfect
pose alignment. Inspired by the ability of the diffusion model to generate
photorealistic images from the given conditional guidance, we propose recurrent
pose alignment to provide pose-aligned texture features as conditional
guidance. Moreover, we propose gradient guidance from pose interaction fields,
which output the distance from the valid pose manifold given a target pose as
input. This helps in learning plausible pose transfer trajectories that result
in photorealism and undistorted texture details. Extensive results on two
large-scale benchmarks and a user study demonstrate the ability of our proposed
approach to generate photorealistic pose transfer under challenging scenarios.
Additionally, we prove the efficiency of gradient guidance in pose-guided image
generation on the HumanArt dataset with fine-tuned stable diffusion.
- Abstract(参考訳): ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。
人物画像は高度に構造化されているため、既存のアプローチでは複雑な変形や閉塞のために密接な接続を必要としている。
しかし畳み込みニューラルネットワークによって生成される特徴マップには等分散性がなく、したがってマルチレベルウォーピングでさえ完全なポーズアライメントを持っていない。
拡散モデルが与えられた条件付きガイダンスからフォトリアリスティックな画像を生成する能力に着想を得て,ポーズアライメントを条件付きガイダンスとして提案する。
さらに,対象ポーズからの距離を入力として適切なポーズ多様体から出力するポーズ相互作用場からの勾配誘導を提案する。
これは、フォトリアリズムと非歪なテクスチャの詳細をもたらす、もっともらしいポーズ伝達軌道の学習に役立つ。
2つの大規模ベンチマークとユーザ調査の結果から,提案手法が課題シナリオにおいて,フォトリアリスティックなポーズ伝達を生成する可能性を実証した。
また,HumanArtデータセット上でのポーズ誘導画像生成における勾配誘導の効率性を示す。
関連論文リスト
- Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation [32.190055780969466]
Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。
我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。
Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
論文 参考訳(メタデータ) (2024-06-04T16:54:28Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。
提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。
後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文 参考訳(メタデータ) (2023-12-21T18:54:19Z) - Pose-Free Neural Radiance Fields via Implicit Pose Regularization [117.648238941948]
IR-NeRFは、暗黙的なポーズ規則化を導入し、ポーズ推定器を非ポーズの実像で精査する革新的なポーズフリー神経放射場である。
特定のシーンの2D画像の収集により、IR-NeRFはシーンの特徴を記憶するシーンコードブックを構築し、シーン固有のポーズ分布を前もって暗黙的にキャプチャする。
論文 参考訳(メタデータ) (2023-08-29T06:14:06Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z) - Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。
まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。
本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文 参考訳(メタデータ) (2023-02-16T10:40:55Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。