論文の概要: ITA-MDT: Image-Timestep-Adaptive Masked Diffusion Transformer Framework for Image-Based Virtual Try-On
- arxiv url: http://arxiv.org/abs/2503.20418v1
- Date: Wed, 26 Mar 2025 10:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 13:20:23.831261
- Title: ITA-MDT: Image-Timestep-Adaptive Masked Diffusion Transformer Framework for Image-Based Virtual Try-On
- Title(参考訳): ITA-MDT:画像ベース仮想トライオンのための画像時間適応型マスク付き拡散変圧器フレームワーク
- Authors: Ji Woo Hong, Tri Ton, Trung X. Pham, Gwanhyeong Koo, Sunjae Yoon, Chang D. Yoo,
- Abstract要約: 本稿では、画像ベース仮想トライオン(IVTON)のための画像時間行列拡散変換フレームワークであるITA-MDTを紹介する。
IVTONタスクは、ある画像から別の人物に衣服をシームレスに重ね合わせ、指定された衣服を身に着けている人の現実的な描写を作成する。
- 参考スコア(独自算出の注目度): 21.938301712852226
- License:
- Abstract: This paper introduces ITA-MDT, the Image-Timestep-Adaptive Masked Diffusion Transformer Framework for Image-Based Virtual Try-On (IVTON), designed to overcome the limitations of previous approaches by leveraging the Masked Diffusion Transformer (MDT) for improved handling of both global garment context and fine-grained details. The IVTON task involves seamlessly superimposing a garment from one image onto a person in another, creating a realistic depiction of the person wearing the specified garment. Unlike conventional diffusion-based virtual try-on models that depend on large pre-trained U-Net architectures, ITA-MDT leverages a lightweight, scalable transformer-based denoising diffusion model with a mask latent modeling scheme, achieving competitive results while reducing computational overhead. A key component of ITA-MDT is the Image-Timestep Adaptive Feature Aggregator (ITAFA), a dynamic feature aggregator that combines all of the features from the image encoder into a unified feature of the same size, guided by diffusion timestep and garment image complexity. This enables adaptive weighting of features, allowing the model to emphasize either global information or fine-grained details based on the requirements of the denoising stage. Additionally, the Salient Region Extractor (SRE) module is presented to identify complex region of the garment to provide high-resolution local information to the denoising model as an additional condition alongside the global information of the full garment image. This targeted conditioning strategy enhances detail preservation of fine details in highly salient garment regions, optimizing computational resources by avoiding unnecessarily processing entire garment image. Comparative evaluations confirms that ITA-MDT improves efficiency while maintaining strong performance, reaching state-of-the-art results in several metrics.
- Abstract(参考訳): 本稿では,画像ベース仮想トライオン(IVTON)のためのイメージ・タイムステップ適応型Masked Diffusion Transformer FrameworkであるITA-MDTを紹介する。
IVTONタスクは、ある画像から別の人物に衣服をシームレスに重ね合わせ、指定された衣服を身に着けている人の現実的な描写を作成する。
ITA-MDTは、大規模なトレーニング済みU-Netアーキテクチャに依存する従来の拡散ベースの仮想試行モデルとは異なり、軽量でスケーラブルなトランスフォーマーベースのデノナイジング拡散モデルとマスクラテントモデリングスキームを併用し、計算オーバーヘッドを低減しながら競合する結果を達成している。
ITA-MDTの重要なコンポーネントは、イメージエンコーダから同じサイズの統一された機能に、拡散タイムステップと衣料品の複雑さによって誘導されるすべての機能を組み合わせた動的機能アグリゲータであるImage-Timestep Adaptive Feature Aggregator (ITAFA)である。
これにより、特徴の適応重み付けが可能となり、デノナイジング段階の要件に基づいて、グローバル情報または細かな詳細を強調できる。
さらに、SRE(Salient Region Extractor)モジュールを提示し、衣服の複雑な領域を特定し、デノナイジングモデルに高解像度の局所情報を、全衣服画像のグローバル情報と並行して付加条件として提供する。
このターゲティング・コンディショニング・ストラテジーは、高潔な衣服領域における細部の詳細保存を強化し、不要な衣服画像全体の処理を回避して、計算資源を最適化する。
比較評価の結果,ITA-MDTは高い性能を維持しながら効率を向上し,いくつかの指標が得られた。
関連論文リスト
- ITVTON: Virtual Try-On Diffusion Transformer Based on Integrated Image and Text [11.85544970521423]
画像品質を向上させるためにDiffusion Transformer (DiT) をジェネレータとして利用する ITVTON を導入する。
ITVTONは、空間チャネルに沿って衣服や人物画像を縫い合わせることにより、衣服と人物の相互作用を改善する。
単一拡散変圧器(Single-DiT)ブロック内の注意パラメータに対する訓練を制約する。
論文 参考訳(メタデータ) (2025-01-28T07:24:15Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - GaraMoSt: Parallel Multi-Granularity Motion and Structural Modeling for Efficient Multi-Frame Interpolation in DSA Images [35.42266460525047]
Digital Subtraction Angiography (DSA) 画像は複雑な血管構造と様々な動きを含んでいる。
自然シーンビデオフレーム補間法(VFI)を適用すると、動きのアーティファクト、構造的散逸、ぼやけが生じる。
MoSt-DSAはこれらの問題に初めて対処し、SOTAの結果を得た。
我々は,これらの問題に同じ計算時間スケールで対処するGalaMoStを提案する。
論文 参考訳(メタデータ) (2024-12-18T18:04:12Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - A Unified Conditional Framework for Diffusion-based Image Restoration [39.418415473235235]
画像復元のための拡散モデルに基づく統一条件付きフレームワークを提案する。
我々は、軽量なUNetを利用して初期ガイダンスと拡散モデルを予測し、指導の残余を学習する。
そこで本研究では,高解像度画像を扱うために,単純なステップ間パッチ分割方式を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:22:24Z) - SUMD: Super U-shaped Matrix Decomposition Convolutional neural network
for Image denoising [0.0]
ネットワークに行列分解モジュール(MD)を導入し,グローバルなコンテキスト機能を確立する。
U字型アーキテクチャの多段階的プログレッシブ復元の設計に触発されて,MDモジュールをマルチブランチに統合する。
我々のモデル(SUMD)は、Transformerベースの手法で、同等の視覚的品質と精度が得られる。
論文 参考訳(メタデータ) (2022-04-11T04:38:34Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。