論文の概要: ODPG: Outfitting Diffusion with Pose Guided Condition
- arxiv url: http://arxiv.org/abs/2501.06769v1
- Date: Sun, 12 Jan 2025 10:30:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:33.734449
- Title: ODPG: Outfitting Diffusion with Pose Guided Condition
- Title(参考訳): ODPG: Pose Guided Condition による拡散の最適化
- Authors: Seohyun Lee, Jintae Park, Sanghyeok Park,
- Abstract要約: VTON技術は、物理的に試すことなく、服がどのように見えるかを視覚化する。
GAN(Geneversarative Adrial Networks)と拡散モデル(Diffusion model)を用いた従来のVTON手法は、高いリアリズムの実現と動的なポーズの処理において課題に直面している。
本稿では,複数の条件入力を持つ潜伏拡散モデルを利用した新しい手法であるFOPS(Outfitting Diffusion with Pose Guided Condition)を提案する。
- 参考スコア(独自算出の注目度): 2.5602836891933074
- License:
- Abstract: Virtual Try-On (VTON) technology allows users to visualize how clothes would look on them without physically trying them on, gaining traction with the rise of digitalization and online shopping. Traditional VTON methods, often using Generative Adversarial Networks (GANs) and Diffusion models, face challenges in achieving high realism and handling dynamic poses. This paper introduces Outfitting Diffusion with Pose Guided Condition (ODPG), a novel approach that leverages a latent diffusion model with multiple conditioning inputs during the denoising process. By transforming garment, pose, and appearance images into latent features and integrating these features in a UNet-based denoising model, ODPG achieves non-explicit synthesis of garments on dynamically posed human images. Our experiments on the FashionTryOn and a subset of the DeepFashion dataset demonstrate that ODPG generates realistic VTON images with fine-grained texture details across various poses, utilizing an end-to-end architecture without the need for explicit garment warping processes. Future work will focus on generating VTON outputs in video format and on applying our attention mechanism, as detailed in the Method section, to other domains with limited data.
- Abstract(参考訳): VTON(Virtual Try-On)技術は、デジタル化とオンラインショッピングの台頭により、物理的に試すことなく、衣服がどのように見えるかを視覚化する。
GAN(Generative Adversarial Networks)と拡散モデル(Diffusion model)を用いた従来のVTON手法は、高いリアリズムの実現と動的なポーズの処理において課題に直面している。
本稿では,複数の条件入力を持つ潜伏拡散モデルを利用した新しい手法であるFOPS(Outfitting Diffusion with Pose Guided Condition)を提案する。
衣服、ポーズ、外観画像を潜在特徴に変換し、これらの特徴をUNetベースの装飾モデルに統合することにより、ODPGは動的に配置されたヒト画像上に衣服を非明示的に合成する。
FashionTryOnとDeepFashionデータセットのサブセットによる実験により、ODPGは様々なポーズにまたがってきめ細かなテクスチャでリアルなVTON画像を生成することを示した。
今後の作業は、ビデオフォーマットでのVTON出力の生成と、メソッドセクションで詳述された注意機構を、限られたデータを持つ他のドメインに適用することに集中する。
関連論文リスト
- Improving Virtual Try-On with Garment-focused Diffusion Models [91.95830983115474]
拡散モデルは多くの画像合成タスクにおける生成的モデリングの革新をもたらした。
私たちは新しい拡散モデル、すなわちGarDiffを作り、衣服中心の拡散プロセスを引き起こします。
VITON-HDおよびDressCodeデータセットの実験は、最先端のVTONアプローチと比較して、GarDiffの優位性を示している。
論文 参考訳(メタデータ) (2024-09-12T17:55:11Z) - TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。
TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。
本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-07T08:52:21Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - FLDM-VTON: Faithful Latent Diffusion Model for Virtual Try-on [21.34959824429241]
FLDM-VTONは、VTONのためのFhithful Latent Diffusion Modelである。
着物は出発点と現地の条件の両方に組み込まれ、忠実な着物のモデルを提供する。
写真のリアルな試着画像を、忠実な衣服のディテールで生成することができる。
論文 参考訳(メタデータ) (2024-04-22T13:21:09Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - OOTDiffusion: Outfitting Fusion based Latent Diffusion for Controllable
Virtual Try-on [7.46772222515689]
OOTDiffusionは、リアルで制御可能なイメージベースの仮想トライオンのための新しいネットワークアーキテクチャである。
我々は、事前訓練された潜伏拡散モデルのパワーを活用し、UNetを設計して、衣服の詳細特徴を学習する。
VITON-HDおよびDress Codeデータセットに関する実験により、OOTDiffusionが効率よく高品質な試行結果を生成することを示した。
論文 参考訳(メタデータ) (2024-03-04T07:17:44Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - WarpDiffusion: Efficient Diffusion Model for High-Fidelity Virtual
Try-on [81.15988741258683]
画像ベースの仮想トライオン(VITON)は、ホップ内の衣服イメージを対象人物に転送することを目的としている。
現在の方法では、衣服と肌の境界付近の合成品質や、ねじれた衣服のしわや影のような現実的な効果を見落としていることが多い。
本稿では,新しい情報的・局所的な特徴的注意機構を通じてワーピングと拡散に基づくパラダイムを橋渡しするワープ拡散を提案する。
論文 参考訳(メタデータ) (2023-12-06T18:34:32Z) - Taming the Power of Diffusion Models for High-Quality Virtual Try-On
with Appearance Flow [24.187109053871833]
仮想試着は、人間と衣服の両方の詳細を保存しながら、ある画像から別の画像へ衣服を転送することを目的とした、重要な画像合成タスクである。
本稿では,拡散モデルの生成を効果的に導くために,ワープモジュールを利用する例に基づく塗装手法を提案する。
我々のアプローチ、すなわちDCI-VTON(Diffusion-based Conditional Inpainting for Virtual Try-ON)は、拡散モデルのパワーを効果的に活用する。
論文 参考訳(メタデータ) (2023-08-11T12:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。