論文の概要: FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.20586v1
- Date: Thu, 28 Aug 2025 09:25:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.280028
- Title: FastFit: Accelerating Multi-Reference Virtual Try-On via Cacheable Diffusion Models
- Title(参考訳): FastFit: キャッシュ可能な拡散モデルによるマルチ参照仮想トライオンの高速化
- Authors: Zheng Chong, Yanwei Lei, Shiyue Zhang, Zhuandi He, Zhen Wang, Xujie Zhang, Xiao Dong, Yiling Wu, Dongmei Jiang, Xiaodan Liang,
- Abstract要約: FastFitは、キャッシュ可能な新しい拡散アーキテクチャに基づいた、高速なマルチ参照仮想試行フレームワークである。
本モデルでは,パラメータのオーバーヘッドを無視して参照特徴符号化をデノナイズ処理から完全に切り離す。
これにより、参照機能は一度だけ計算され、すべてのステップで損失なく再利用される。
- 参考スコア(独自算出の注目度): 59.8871829077739
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite its great potential, virtual try-on technology is hindered from real-world application by two major challenges: the inability of current methods to support multi-reference outfit compositions (including garments and accessories), and their significant inefficiency caused by the redundant re-computation of reference features in each denoising step. To address these challenges, we propose FastFit, a high-speed multi-reference virtual try-on framework based on a novel cacheable diffusion architecture. By employing a Semi-Attention mechanism and substituting traditional timestep embeddings with class embeddings for reference items, our model fully decouples reference feature encoding from the denoising process with negligible parameter overhead. This allows reference features to be computed only once and losslessly reused across all steps, fundamentally breaking the efficiency bottleneck and achieving an average 3.5x speedup over comparable methods. Furthermore, to facilitate research on complex, multi-reference virtual try-on, we introduce DressCode-MR, a new large-scale dataset. It comprises 28,179 sets of high-quality, paired images covering five key categories (tops, bottoms, dresses, shoes, and bags), constructed through a pipeline of expert models and human feedback refinement. Extensive experiments on the VITON-HD, DressCode, and our DressCode-MR datasets show that FastFit surpasses state-of-the-art methods on key fidelity metrics while offering its significant advantage in inference efficiency.
- Abstract(参考訳): その大きな可能性にもかかわらず、仮想トライオン技術は現実世界の応用から妨げられている: マルチリファレンスの服(衣服やアクセサリーを含む)をサポートする現在の方法の欠如と、それぞれの装飾ステップにおける参照機能の冗長な再計算による、その大きな非効率性である。
これらの課題に対処するために,新しいキャッシュ可能な拡散アーキテクチャに基づく高速なマルチ参照仮想試行フレームワークであるFastFitを提案する。
本モデルでは,セミアテンション機構を導入し,参照項目のクラス埋め込みを従来のタイムステップ埋め込みに置き換えることで,参照特徴符号化をパラメータのオーバーヘッドを無視できるデノナイズプロセスから完全に切り離す。
これにより、参照機能は一度だけ計算され、すべてのステップでロスレスに再利用され、基本的に効率のボトルネックを破り、同等のメソッドで平均3.5倍のスピードアップを達成することができる。
さらに、複雑なマルチ参照仮想トライオンの研究を容易にするために、新しい大規模データセットであるDressCode-MRを導入する。
高品質の28,179枚の画像(トップ、ボトム、ドレス、靴、バッグ)が、専門家モデルと人間のフィードバック改善のパイプラインを通して構築されている。
VITON-HD、DressCode、および私たちのDressCode-MRデータセットに関する大規模な実験は、FastFitが主要な忠実度メトリクスの最先端メソッドを超越し、推論効率において大きな優位性を提供することを示している。
関連論文リスト
- Towards Scalable Modeling of Compressed Videos for Efficient Action Recognition [6.168286187549952]
提案するハイブリッドなエンドツーエンドフレームワークは,3つの重要な概念にまたがって学習を分解し,推論コストを先行技術に対して330倍に削減する。
実験により,本手法は最先端のビデオ認識性能を実現する軽量なアーキテクチャを実現することが示された。
論文 参考訳(メタデータ) (2025-03-17T21:13:48Z) - QuantCache: Adaptive Importance-Guided Quantization with Hierarchical Latent and Layer Caching for Video Generation [84.91431271257437]
Diffusion Transformers (DiTs) はビデオ生成において支配的なアーキテクチャとして登場した。
DiTには、計算コストやメモリコストの増大など、大きな欠点がある。
我々は,新しいトレーニングフリー推論アクセラレーションフレームワークQuantCacheを提案する。
論文 参考訳(メタデータ) (2025-03-09T10:31:51Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Reversible Decoupling Network for Single Image Reflection Removal [15.763420129991255]
本稿では, 可逆エンコーダを提案し, 透過・反射関連特性を柔軟に分離する。
RDNet は NTIRE 2025 Single Image Reflection removal in the Wild Challenge において、忠実さと知覚的比較の両方において最高のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2024-10-10T15:58:27Z) - Time-Efficient and Identity-Consistent Virtual Try-On Using A Variant of Altered Diffusion Models [4.038493506169702]
本研究は, 複雑なテクスチャの詳細と, 対象者と衣服の特徴を, 様々なシナリオで保存することの課題を強調する。
様々な既存アプローチが検討され、制限と未解決の側面を強調している。
次に,仮想試行中にテクスチャのテクスチャ保存とユーザアイデンティティ保持に対処する,新しい拡散型ソリューションを提案する。
論文 参考訳(メタデータ) (2024-03-12T07:15:29Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。