Fugu-MT 論文翻訳(概要): LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

論文の概要: LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On

arxiv url: http://arxiv.org/abs/2305.13501v3
Date: Thu, 3 Aug 2023 13:51:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-04 16:46:36.554819
Title: LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On
Title（参考訳）: LaDI-VTON:潜在拡散テキスト変換による仮想トライオン
Authors: Davide Morelli, Alberto Baldrati, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara
Abstract要約: この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。提案したアーキテクチャは、新しいオートエンコーダモジュールで拡張された潜在拡散モデルに依存している。当社のアプローチは競争相手を一貫したマージンで上回り、そのタスクにおいて重要なマイルストーンを達成していることを示す。
参考スコア（独自算出の注目度）: 35.4056826207203
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapidly evolving fields of e-commerce and metaverse continue to seek innovative approaches to enhance the consumer experience. At the same time, recent advancements in the development of diffusion models have enabled generative networks to create remarkably realistic images. In this context, image-based virtual try-on, which consists in generating a novel image of a target model wearing a given in-shop garment, has yet to capitalize on the potential of these powerful generative solutions. This work introduces LaDI-VTON, the first Latent Diffusion textual Inversion-enhanced model for the Virtual Try-ON task. The proposed architecture relies on a latent diffusion model extended with a novel additional autoencoder module that exploits learnable skip connections to enhance the generation process preserving the model's characteristics. To effectively maintain the texture and details of the in-shop garment, we propose a textual inversion component that can map the visual features of the garment to the CLIP token embedding space and thus generate a set of pseudo-word token embeddings capable of conditioning the generation process. Experimental results on Dress Code and VITON-HD datasets demonstrate that our approach outperforms the competitors by a consistent margin, achieving a significant milestone for the task. Source code and trained models are publicly available at: https://github.com/miccunifi/ladi-vton.
Abstract（参考訳）: 電子商取引とメタバースの急速な発展は、消費者エクスペリエンスを高める革新的なアプローチを模索し続けている。同時に、近年の拡散モデルの発展により、生成ネットワークは驚くほどリアルな画像を作成できるようになった。この文脈では、所定のショップ内の衣服を身に着けたターゲットモデルの斬新なイメージを生成することからなるイメージベースの仮想トライオンは、これらの強力な生成的ソリューションの可能性を生かしていない。この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。提案アーキテクチャは,学習可能なスキップ接続を利用する新たなオートエンコーダモジュールによって拡張された潜時拡散モデルに依存し,モデルの特徴を保存する生成プロセスを強化する。着物のテクスチャと細部を効果的に維持するために,CLIPトークン埋め込み空間に衣服の視覚的特徴をマッピングし,生成プロセスの条件付けが可能な擬似単語トークン埋め込みのセットを生成するテキスト・インバージョン・コンポーネントを提案する。 Dress CodeとVITON-HDデータセットの実験的結果は、我々のアプローチが競争相手を一貫したマージンで上回り、タスクにとって重要なマイルストーンを達成していることを示している。ソースコードとトレーニングされたモデルは、https://github.com/miccunifi/ladi-vton.comで公開されている。

関連論文リスト

DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文参考訳（メタデータ） (2025-08-04T18:27:55Z)
Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。 Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文参考訳（メタデータ） (2025-05-08T17:58:57Z)
Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文参考訳（メタデータ） (2025-02-01T07:42:12Z)
ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文参考訳（メタデータ） (2024-12-25T18:58:07Z)
TryOffDiff: Virtual-Try-Off via High-Fidelity Garment Reconstruction using Diffusion Models [8.158200403139196]
本報告では,仮想トライオフ(Virtual Try-Off, VTOFF)について紹介する。本稿では,SigLIPに基づく視覚条件付き安定拡散モデルTryOffDiffを提案する。本研究は,電子商取引アプリケーションにおける製品イメージの向上,生成モデル評価の進展,高忠実度再構築に向けた今後の取り組みを示唆するものである。
論文参考訳（メタデータ） (2024-11-27T13:53:09Z)
LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文参考訳（メタデータ） (2024-11-18T12:05:27Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
ACE: All-round Creator and Editor Following Instructions via Diffusion Transformer [40.32254040909614]
視覚生成タスクのための全ラウンドクリエータとエディタであるACEを提案する。まず、Long-Context Condition Unit (LCU)と呼ばれる統一条件形式を導入する。次に,LCUを入力として使用するトランスフォーマーに基づく新しい拡散モデルを提案する。
論文参考訳（メタデータ） (2024-09-30T17:56:27Z)
Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文参考訳（メタデータ） (2024-05-26T23:56:45Z)
FashionSD-X: Multimodal Fashion Garment Synthesis using Latent Diffusion [11.646594594565098]
本研究では,遅延拡散モデルを用いて,ファッションデザインのプロセスを変えるための新しい生成パイプラインを提案する。我々は、スケッチデータを統合することで、マルチモーダルドレスコードやVITON-HDを含む最先端の仮想試行データセットを活用し、強化する。
論文参考訳（メタデータ） (2024-04-26T14:59:42Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
SODA: Bottleneck Diffusion Models for Representation Learning [75.7331354734152]
本稿では,表現学習のための自己教師付き拡散モデルSODAを紹介する。このモデルには、ソースビューをコンパクトな表現に蒸留するイメージエンコーダが組み込まれており、関連する新規ビューの生成を導く。エンコーダと復調復調復調復調復調復調復調復調復号器の密集ボトルネックを付与することにより,拡散モデルを強力な表現学習器に変換することができることを示す。
論文参考訳（メタデータ） (2023-11-29T18:53:34Z)
RenAIssance: A Survey into AI Text-to-Image Generation in the Era of Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文参考訳（メタデータ） (2023-09-02T03:27:20Z)
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。 UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文参考訳（メタデータ） (2023-06-01T15:39:38Z)
Interactive Fashion Content Generation Using LLMs and Latent Diffusion Models [0.0]
ファッション可能な画像生成は、世界中の多様なファッションのイメージを合成することを目的としている。拡散モデルとエネルギーベースモデル(EBM)の等価性を利用する手法を提案する。以上の結果から,LLMを用いて潜在拡散モデルのプロンプトを洗練させることにより,グローバルな創造的,文化的に多様化したファッションスタイルの創出を支援することが示唆された。
論文参考訳（メタデータ） (2023-05-15T18:38:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。