論文の概要: ITVTON:Virtual Try-On Diffusion Transformer Model Based on Integrated Image and Text
- arxiv url: http://arxiv.org/abs/2501.16757v1
- Date: Tue, 28 Jan 2025 07:24:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:41:30.043483
- Title: ITVTON:Virtual Try-On Diffusion Transformer Model Based on Integrated Image and Text
- Title(参考訳): ITVTON:統合画像とテキストに基づく仮想拡散変圧器モデル
- Authors: Haifeng Ni,
- Abstract要約: ITVTONは,衣料品とキャラクタイメージを入力として空間チャネルに沿って組み合わせることで,衣料品とキャラクタのインタラクションを向上させる手法である。
複数の画像からテキストを統合的に記述することで、生成した視覚効果の現実性を高める。
実験では、ITVTONは質的にも定量的にもベースライン法より優れている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Recent advancements in virtual fitting for characters and clothing have leveraged diffusion models to improve the realism of garment fitting. However, challenges remain in handling complex scenes and poses, which can result in unnatural garment fitting and poorly rendered intricate patterns. In this work, we introduce ITVTON, a novel method that enhances clothing-character interactions by combining clothing and character images along spatial channels as inputs, thereby improving fitting accuracy for the inpainting model. Additionally, we incorporate integrated textual descriptions from multiple images to boost the realism of the generated visual effects. To optimize computational efficiency, we limit training to the attention parameters within a single diffusion transformer (Single-DiT) block. To more rigorously address the complexities of real-world scenarios, we curated training samples from the IGPair dataset, thereby enhancing ITVTON's performance across diverse environments. Extensive experiments demonstrate that ITVTON outperforms baseline methods both qualitatively and quantitatively, setting a new standard for virtual fitting tasks.
- Abstract(参考訳): キャラクタや衣服の仮想フィッティングの最近の進歩は, 拡散モデルを活用して, 衣服フィッティングの現実性を高めている。
しかし、複雑なシーンやポーズを扱う際には課題が残っており、不自然な服装や複雑なパターンが不自然な結果をもたらす可能性がある。
そこで本研究では,空間チャネルに沿って衣料品とキャラクタイメージを合成することで,衣料品とキャラクタのインタラクションを向上する新しい手法であるITVTONについて紹介する。
さらに,複数の画像からのテキスト記述を統合し,生成した視覚効果の現実性を高める。
計算効率を最適化するため,単一拡散変圧器(Single-DiT)ブロック内の注意パラメータにトレーニングを限定する。
実世界のシナリオの複雑さをより厳密に解決するため、IGPairデータセットからトレーニングサンプルをキュレートし、様々な環境におけるITVTONのパフォーマンスを向上した。
大規模な実験により、ITVTONは定性的かつ定量的にベースライン法より優れており、仮想的適合タスクの新たな標準が設定されている。
関連論文リスト
- TryOffAnyone: Tiled Cloth Generation from a Dressed Person [1.4732811715354452]
高忠実なタイル付き衣料品画像は、パーソナライズされたレコメンデーション、服装構成、バーチャルトライオンシステムに不可欠である。
本研究では, 微調整型安定拡散モデルを用いた新しい手法を提案する。
本手法は,服飾用マスクを統合し,対象の衣服を効果的に分離・処理する,一段ネットワーク設計の合理化を特徴とする。
論文 参考訳(メタデータ) (2024-12-11T17:41:53Z) - IMAGDressing-v1: Customizable Virtual Dressing [58.44155202253754]
IMAGDressing-v1は、固定された衣服とオプション条件で自由に編集可能な人間の画像を生成する仮想ドレッシングタスクである。
IMAGDressing-v1は、CLIPのセマンティック特徴とVAEのテクスチャ特徴をキャプチャする衣料UNetを組み込んでいる。
本稿では,凍結自己注意とトレーニング可能なクロスアテンションを含むハイブリッドアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:26:30Z) - Self-Supervised Vision Transformer for Enhanced Virtual Clothes Try-On [21.422611451978863]
本稿では,仮想衣料試着において,自己監督型視覚変換器(ViT)と拡散モデルを用いた革新的なアプローチを提案する。
提案手法は,ViTが生成するローカル衣料品のイメージ埋め込みとグローバルな衣料品との対比により,ディテールの強調を強調する。
実験結果は、仮想試行体験における現実性と詳細の精度の大幅な進歩を示す。
論文 参考訳(メタデータ) (2024-06-15T07:46:22Z) - AnyFit: Controllable Virtual Try-on for Any Combination of Attire Across Any Scenario [50.62711489896909]
AnyFitは、高解像度のベンチマークと実世界のデータのベースラインを、大きなギャップで上回っている。
AnyFitの高忠実度バーチャル試作品における印象的なパフォーマンスは、あらゆるイメージから見ても、ファッションコミュニティにおける将来の研究の新たな道を切り開くものです。
論文 参考訳(メタデータ) (2024-05-28T13:33:08Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - C-VTON: Context-Driven Image-Based Virtual Try-On Network [1.0832844764942349]
本稿では,選択した衣服を対象者に確実に転送するコンテキスト駆動型仮想トライオンネットワーク(C-VTON)を提案する。
C-VTONパイプラインのコアには、(i)入力画像中の人物のポーズに目的の衣服を効率よく整列する幾何マッチング手順と、(ii)最終試行結果に様々な種類の文脈情報を利用する強力な画像生成装置とがある。
論文 参考訳(メタデータ) (2022-12-08T17:56:34Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。