論文の概要: TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2411.17017v2
- Date: Sun, 01 Dec 2024 14:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-03 13:35:58.532493
- Title: TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On
- Title(参考訳): TED-VITON:仮想トライオン用変圧器駆動拡散モデル
- Authors: Zhenchen Wan, Yanwu Xu, Zhaoqing Wang, Feng Liu, Tongliang Liu, Mingming Gong,
- Abstract要約: TED-VITONはGarment Semantic (GS) Adapterを統合した新しいフレームワークである。
これらのイノベーションは、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスを可能にする。
- 参考スコア(独自算出の注目度): 78.33688031340698
- License:
- Abstract: Recent advancements in Virtual Try-On (VTO) have demonstrated exceptional efficacy in generating realistic images and preserving garment details, largely attributed to the robust generative capabilities of text-to-image (T2I) diffusion backbones. However, the T2I models that underpin these methods have become outdated, thereby limiting the potential for further improvement in VTO. Additionally, current methods face notable challenges in accurately rendering text on garments without distortion and preserving fine-grained details, such as textures and material fidelity. The emergence of Diffusion Transformer (DiT) based T2I models has showcased impressive performance and offers a promising opportunity for advancing VTO. Directly applying existing VTO techniques to transformer-based T2I models is ineffective due to substantial architectural differences, which hinder their ability to fully leverage the models' advanced capabilities for improved text generation. To address these challenges and unlock the full potential of DiT-based T2I models for VTO, we propose TED-VITON, a novel framework that integrates a Garment Semantic (GS) Adapter for enhancing garment-specific features, a Text Preservation Loss to ensure accurate and distortion-free text rendering, and a constraint mechanism to generate prompts by optimizing Large Language Model (LLM). These innovations enable state-of-the-art (SOTA) performance in visual quality and text fidelity, establishing a new benchmark for VTO task. Project page: \url{https://zhenchenwan.github.io/TED-VITON/}
- Abstract(参考訳): VTO(Virtual Try-On)の最近の進歩は、テキスト・ツー・イメージ(T2I)拡散バックボーンの堅牢な生成能力に起因して、現実的な画像の生成と衣服の細部保存において、例外的な効果を示した。
しかし、これらの手法の基盤となるT2Iモデルは時代遅れとなり、VTOのさらなる改善の可能性を制限することになる。
さらに、現在の手法は、歪みのない衣服のテキストを正確にレンダリングし、テクスチャや素材の忠実さといった細部を細かく保存する上で、顕著な課題に直面している。
Diffusion Transformer (DiT)ベースのT2Iモデルは、優れたパフォーマンスを示し、VTOを前進させる有望な機会を提供する。
トランスフォーマーベースのT2Iモデルに既存のVTO技術を直接適用することは、大きなアーキテクチャ上の違いにより、テキスト生成を改善するためにモデルの高度な能力を十分に活用できないため、効果がない。
これらの課題に対処し,VTO用のDiTベースのT2Iモデルの可能性を最大限に活用するために,Garment Semantic (GS) Adapterを統合した新しいフレームワークであるTED-VITON,精度と歪みのないテキストレンダリングを保証するText Preservation Loss,Large Language Model (LLM) を最適化してプロンプトを生成する制約機構を提案する。
これらのイノベーションにより、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスが実現され、VTOタスクの新たなベンチマークが確立される。
プロジェクトページ: \url{https://zhenchenwan.github.io/TED-VITON/}
関連論文リスト
- T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - AGFSync: Leveraging AI-Generated Feedback for Preference Optimization in Text-to-Image Generation [4.054100650064423]
テキスト・ツー・イメージ(T2I)拡散モデルは画像生成において顕著な成功を収めた。
AGFSyncは、AIによる完全なアプローチで、DPO(Direct Preference Optimization)を通じてT2I拡散モデルを強化するフレームワークである。
AGFSyncのT2I拡散モデルの精製方法は、スケーラブルなアライメント手法の道を開く。
論文 参考訳(メタデータ) (2024-03-20T07:31:07Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - ViT-Lens: Towards Omni-modal Representations [64.66508684336614]
ViT-Lens-2は、モダリティ増加の表現学習のためのフレームワークである。
ViT-Lens-2は3Dポイントクラウド,奥行き,オーディオ,触覚,脳波の表現を学習できることを示す。
ViT-Lens-2をシームレスにMultimodal Foundation Modelsに統合することにより、テキストと画像生成へのAny-modalityを可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:52:09Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - Visual Programming for Text-to-Image Generation and Evaluation [73.12069620086311]
テキスト・トゥ・イメージ(T2I)生成と評価のための2つの新しい解釈可能・説明可能なビジュアル・プログラミング・フレームワークを提案する。
まず,T2I生成をオブジェクト/カウント生成,レイアウト生成,画像生成という3つのステップに分解する,解釈可能なステップバイステップT2I生成フレームワークであるVPGenを紹介する。
第2に、視覚プログラミングに基づくT2I生成のための解釈可能かつ説明可能な評価フレームワークであるVPEvalを紹介する。
論文 参考訳(メタデータ) (2023-05-24T16:42:17Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。