論文の概要: ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text
- arxiv url: http://arxiv.org/abs/2501.16757v2
- Date: Sat, 15 Mar 2025 18:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:31:56.859827
- Title: ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text
- Title(参考訳): ITVTON:統合画像とテキストに基づく仮想トライオン拡散変換器
- Authors: Haifeng Ni, Ming Xu, Faming Fang,
- Abstract要約: 画像品質を向上させるためにDiffusion Transformer (DiT) をジェネレータとして利用する ITVTON を導入する。
ITVTONは、空間チャネルに沿って衣服や人物画像を縫い合わせることにより、衣服と人物の相互作用を改善する。
単一拡散変圧器(Single-DiT)ブロック内の注意パラメータに対する訓練を制約する。
- 参考スコア(独自算出の注目度): 11.85544970521423
- License:
- Abstract: Virtual try-on task, grounded in persons and garments, has produced notable advancements in the domain of diffusion models. Numerous approaches use replicated backbones or additional image encoders to extract garment features, leading to higher computational cost and a more complex network structure. In this work, we introduce ITVTON, which utilizes the Diffusion Transformer (DiT) as a generator to enhance image quality. ITVTON also improves garment-person interaction by stitching garment and person images along the spatial channel, and integrates textual descriptions from both the garment and person images to further enhance the realism of the generated visuals. This network structure is efficient, and to further reduce computational cost, we constrain training to attention parameters within a single Diffusion Transformer (Single-DiT) block. Extensive experiments demonstrate that ITVTON outperforms baseline methods both qualitatively and quantitatively, thereby establishing a new benchmark for virtual try-on tasks.Additionally, 10,257 image pairs were selected from IGPair to demonstrate that ITVTON performs effectively in realistic scenes.
- Abstract(参考訳): 人や衣服に根ざした仮想試行課題は,拡散モデルの領域において顕著な進歩をもたらした。
多くのアプローチでは、複製されたバックボーンまたは追加の画像エンコーダを使用して衣服の特徴を抽出し、より高い計算コストとより複雑なネットワーク構造をもたらす。
本稿では,Diffusion Transformer (DiT) を画像品質向上のためのジェネレータとして利用する ITVTON を紹介する。
ITVTONはまた、空間チャネルに沿って衣服と人像を縫い合わせることにより、衣服と人像のテキスト記述を統合して、生成した視覚のリアリズムをさらに高めることにより、衣服と人像の相互作用を改善する。
このネットワーク構造は効率的であり、計算コストをさらに削減するために、単一拡散変換器(Single-DiT)ブロック内の注意パラメータにトレーニングを拘束する。
その結果, ITVTONは, IGPairから10,257枚の画像対が選択され, 現実的な場面で効果的に動作することを示した。
関連論文リスト
- TryOffAnyone: Tiled Cloth Generation from a Dressed Person [1.4732811715354452]
高忠実なタイル付き衣料品画像は、パーソナライズされたレコメンデーション、服装構成、バーチャルトライオンシステムに不可欠である。
本研究では, 微調整型安定拡散モデルを用いた新しい手法を提案する。
本手法は,服飾用マスクを統合し,対象の衣服を効果的に分離・処理する,一段ネットワーク設計の合理化を特徴とする。
論文 参考訳(メタデータ) (2024-12-11T17:41:53Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Self-Supervised Vision Transformer for Enhanced Virtual Clothes Try-On [21.422611451978863]
本稿では,仮想衣料試着において,自己監督型視覚変換器(ViT)と拡散モデルを用いた革新的なアプローチを提案する。
提案手法は,ViTが生成するローカル衣料品のイメージ埋め込みとグローバルな衣料品との対比により,ディテールの強調を強調する。
実験結果は、仮想試行体験における現実性と詳細の精度の大幅な進歩を示す。
論文 参考訳(メタデータ) (2024-06-15T07:46:22Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - C-VTON: Context-Driven Image-Based Virtual Try-On Network [1.0832844764942349]
本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
論文 参考訳(メタデータ) (2022-12-08T17:56:34Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。