Fugu-MT 論文翻訳(概要): RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis

論文の概要: RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis

arxiv url: http://arxiv.org/abs/2310.16074v2
Date: Thu, 11 Apr 2024 10:45:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-12 19:08:26.494808
Title: RePoseDM: Recurrent Pose Alignment and Gradient Guidance for Pose Guided Image Synthesis
Title（参考訳）: RePoseDM: Pose Guided Image Synthesis における繰り返しポスアライメントとグラディエントガイダンス
Authors: Anant Khandelwal,
Abstract要約: ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。条件付きガイダンスとしてポーズアラインメントのテクスチャ特徴を提供するために,繰り返しポーズアライメントを提案する。これは、フォトリアリズムと非歪なテクスチャの詳細をもたらす、もっともらしいポーズ伝達軌跡の学習に役立ちます。
参考スコア（独自算出の注目度）: 14.50214193838818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pose-guided person image synthesis task requires re-rendering a reference image, which should have a photorealistic appearance and flawless pose transfer. Since person images are highly structured, existing approaches require dense connections for complex deformations and occlusions because these are generally handled through multi-level warping and masking in latent space. The feature maps generated by convolutional neural networks do not have equivariance, and hence multi-level warping is required to perform pose alignment. Inspired by the ability of the diffusion model to generate photorealistic images from the given conditional guidance, we propose recurrent pose alignment to provide pose-aligned texture features as conditional guidance. Due to the leakage of the source pose in conditional guidance, we propose gradient guidance from pose interaction fields, which output the distance from the valid pose manifold given a predicted pose as input. This helps in learning plausible pose transfer trajectories that result in photorealism and undistorted texture details. Extensive results on two large-scale benchmarks and a user study demonstrate the ability of our proposed approach to generate photorealistic pose transfer under challenging scenarios. Additionally, we demonstrate the efficiency of gradient guidance in pose-guided image generation on the HumanArt dataset with fine-tuned stable diffusion.
Abstract（参考訳）: ポーズ誘導された人物画像合成タスクは、フォトリアリスティックな外観と欠陥のないポーズ転送を備えた参照イメージを再レンダリングする必要がある。人物画像は高度に構造化されているため、既存のアプローチでは複雑な変形や閉塞のために密接な接続を必要としている。畳み込みニューラルネットワークによって生成された特徴写像は等分散を持たないため、ポーズアライメントを行うには多層ワープが必要である。拡散モデルが与えられた条件付きガイダンスからフォトリアリスティックな画像を生成する能力にインスパイアされて,ポーズアライメントを条件付きガイダンスとして提供するために,繰り返しポーズアライメントを提案する。条件付き誘導におけるソースポーズの漏れにより,提案手法はポーズ相互作用場からの勾配誘導を提案し,予測されたポーズを入力として与えられた有効なポーズ多様体からの距離を出力する。これは、フォトリアリズムと非歪なテクスチャの詳細をもたらす、もっともらしいポーズ伝達軌跡の学習に役立ちます。 2つの大規模ベンチマークとユーザスタディの広範な結果から,挑戦的なシナリオ下でのフォトリアリスティックなポーズ転送を実現するための提案手法の有効性が示された。また,HumanArtデータセット上でのポーズ誘導画像生成における勾配誘導の効率性を示す。

関連論文リスト

DRDM: A Disentangled Representations Diffusion Model for Synthesizing Realistic Person Images [9.768951663960257]
本稿では,画像からリアルな画像を生成するために,DRDM(Disentangled Representations Diffusion Model)を提案する。まず、ポーズエンコーダは、人物画像の生成を導くために、ポーズ特徴を高次元空間に符号化する。第2に、本体部分部分部分空間疎結合ブロック(BSDB)は、ソースフィギュアの異なる本体部分から特徴を分離し、ノイズ予測ブロックの様々な層に供給する。
論文参考訳（メタデータ） (2024-12-25T06:36:24Z)
Stable-Pose: Leveraging Transformers for Pose-Guided Text-to-Image Generation [32.190055780969466]
Stable-Poseは、粗い注目マスキング戦略を視覚変換器に導入する新しいアダプタモデルである。我々は、ViTのクエリキー自己保持機構を利用して、人間のポーズスケルトンにおける異なる解剖学的部分間の相互接続を探索する。 Stable-PoseはLAION-HumanデータセットのAPスコア57.1を達成し、確立したControlNetよりも約13%改善した。
論文参考訳（メタデータ） (2024-06-04T16:54:28Z)
Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文参考訳（メタデータ） (2024-02-28T06:07:07Z)
Neural Spline Fields for Burst Image Fusion and Layer Separation [40.9442467471977]
ニューラルスプライン場を用いた2層α合成画像とフローモデルを用いた多目的中間表現を提案する。提案手法では, バースト画像を高分解能な再構成に融合し, 透過層と閉塞層に分解することができる。後処理のステップや事前学習がないため、当社の一般化可能なモデルは、既存の専用イメージやマルチビューの障害物除去アプローチよりも優れています。
論文参考訳（メタデータ） (2023-12-21T18:54:19Z)
Pose-Free Neural Radiance Fields via Implicit Pose Regularization [117.648238941948]
IR-NeRFは、暗黙的なポーズ規則化を導入し、ポーズ推定器を非ポーズの実像で精査する革新的なポーズフリー神経放射場である。特定のシーンの2D画像の収集により、IR-NeRFはシーンの特徴を記憶するシーンコードブックを構築し、シーン固有のポーズ分布を前もって暗黙的にキャプチャする。
論文参考訳（メタデータ） (2023-08-29T06:14:06Z)
HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文参考訳（メタデータ） (2023-03-24T06:19:19Z)
Parallax-Tolerant Unsupervised Deep Image Stitching [57.76737888499145]
本稿では,パララックス耐性の非教師あり深層画像縫合技術であるUDIS++を提案する。まず,グローバルなホモグラフィから局所的な薄板スプライン運動への画像登録をモデル化するための,頑健で柔軟なワープを提案する。本研究では, 縫合された画像をシームレスに合成し, シーム駆動合成マスクの教師なし学習を行うことを提案する。
論文参考訳（メタデータ） (2023-02-16T10:40:55Z)
Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。 2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文参考訳（メタデータ） (2022-11-22T18:59:50Z)
Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文参考訳（メタデータ） (2021-05-31T07:07:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。