論文の概要: DEFT-VTON: Efficient Virtual Try-On with Consistent Generalised H-Transform
- arxiv url: http://arxiv.org/abs/2509.13506v1
- Date: Tue, 16 Sep 2025 20:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.635488
- Title: DEFT-VTON: Efficient Virtual Try-On with Consistent Generalised H-Transform
- Title(参考訳): DEFT-VTON:一貫した一般化H-変換を用いた効率的な仮想トライオン
- Authors: Xingzi Xu, Qi Li, Shuwen Qiu, Julien Han, Karim Bouyarmane,
- Abstract要約: 拡散モデルは、確立された画像合成能力を備えた高品質な仮想試行(VTO)を可能にする。
Doobのh-transform efficient fine-tuning (DEFT) は、下流の画像条件付きVTO能力のための大きな訓練済みの未条件モデルに適応する。
DEFTは事前訓練されたモデルのパラメータを凍結し、条件付きh変換を学習するために小さなh変換ネットワークを訓練する。
- 参考スコア(独自算出の注目度): 11.691992316667287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models enable high-quality virtual try-on (VTO) with their established image synthesis abilities. Despite the extensive end-to-end training of large pre-trained models involved in current VTO methods, real-world applications often prioritize limited training and inference, serving, and deployment budgets for VTO. To solve this obstacle, we apply Doob's h-transform efficient fine-tuning (DEFT) for adapting large pre-trained unconditional models for downstream image-conditioned VTO abilities. DEFT freezes the pre-trained model's parameters and trains a small h-transform network to learn a conditional h-transform. The h-transform network allows training only 1.42 percent of the frozen parameters, compared to a baseline of 5.52 percent in traditional parameter-efficient fine-tuning (PEFT). To further improve DEFT's performance and decrease existing models' inference time, we additionally propose an adaptive consistency loss. Consistency training distills slow but high-performing diffusion models into a fast one while retaining performance by enforcing consistencies along the inference path. Inspired by constrained optimization, instead of distillation, we combine the consistency loss and the denoising score matching loss in a data-adaptive manner for fine-tuning existing VTO models at a low cost. Empirical results show the proposed DEFT-VTON method achieves state-of-the-art performance on VTO tasks, with as few as 15 denoising steps, while maintaining competitive results.
- Abstract(参考訳): 拡散モデルは、確立された画像合成能力を備えた高品質な仮想試行(VTO)を可能にする。
現行のVTOメソッドに関連する大規模なトレーニング済みモデルのエンドツーエンドトレーニングにもかかわらず、現実のアプリケーションは、VTOの限られたトレーニングと推論、サービス、デプロイメント予算を優先することが多い。
この障害を解決するために,Doubのh-transform efficient fine-tuning (DEFT) を用いて,下流画像条件付きVTO能力のための大規模未訓練モデルを適用する。
DEFTは事前訓練されたモデルのパラメータを凍結し、条件付きh変換を学習するために小さなh変換ネットワークを訓練する。
h変換ネットワークは、従来のパラメータ効率の良い微調整(PEFT)のベースラインに比べて、凍結パラメータの1.2%しかトレーニングできない。
DEFTの性能をさらに改善し、既存モデルの推論時間を短縮するために、適応整合損失も提案する。
一貫性トレーニングは、推論経路に沿って成分を強制することにより性能を維持しつつ、遅いが高い性能の拡散モデルを高速に蒸留する。
蒸留の代わりに制約最適化にインスパイアされ、既存のVTOモデルを低コストで微調整するために、整合損失と復調スコア整合損失をデータ適応的に組み合わせる。
実験的な結果から,提案手法はVTOタスクの最先端性能を最大15ステップで達成し,競争結果の維持を図っている。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [20.712053538676116]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
TREADは計算コストを削減し、同時にモデル性能を向上することを示す。
ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文 参考訳(メタデータ) (2025-01-08T18:38:25Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Fast Trainable Projection for Robust Fine-Tuning [36.51660287722338]
ロバスト微調整は、競争力のある分散内分散(ID)性能を達成することを目的としている。
プロジェクションベースの微調整は頑健な微調整に成功している。
Fast Trainable Projectionはプロジェクションベースのファインチューニングアルゴリズムである。
論文 参考訳(メタデータ) (2023-10-29T22:52:43Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - A Fast and Efficient Conditional Learning for Tunable Trade-Off between
Accuracy and Robustness [11.35810118757863]
クリーンかつ逆摂動画像上でのSOTA(State-of-the-art)性能を実現する既存のモデルは、FiLM(Feature-wise linear modulation)層を条件とした畳み込み操作に依存している。
既存のFiLMベースの条件付けの代わりに、付加層を必要としない独特な重み付き学習を行うFLOATアルゴリズムを提案する。
特に、重みテンソルにスケールドノイズを加え、クリーンな性能と対向的な性能のトレードオフを可能にする。
論文 参考訳(メタデータ) (2022-03-28T19:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。