論文の概要: DirectTryOn: One-Step Virtual Try-On via Straightened Conditional Transport
- arxiv url: http://arxiv.org/abs/2605.12939v1
- Date: Wed, 13 May 2026 03:18:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.782199
- Title: DirectTryOn: One-Step Virtual Try-On via Straightened Conditional Transport
- Title(参考訳): DirectTryOn: コンディショナルトランスポートによるワンステップバーチャルトライオン
- Authors: Xianbing Sun, Jiahui Zhan, Liqing Zhang, Jianfu Zhang,
- Abstract要約: VTON法は事前学習した生成モデルで強い結果を得るが,多段階サンプリングへの依存は高い推論コストをもたらす。
本稿では,VTONの出力は条件入力によって非常に制約を受けており,条件付きサンプリング軌道は一般的な画像生成よりもはるかに直線的であることを示唆する。
我々は,1段階の蒸留工程を導入し,高効率で高品質なVTONの新しい標準を確立した。
- 参考スコア(独自算出の注目度): 12.441101993836776
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent diffusion- and flow-based VTON methods achieve strong results with pretrained generative models, but their reliance on multi-step sampling incurs high inference cost, while existing acceleration methods largely overlook the intrinsic structure of the try-on task. In this paper, we highlight a key observation: VTON outputs are highly constrained by the conditional inputs, suggesting that the conditional sampling trajectory can be much straighter than that in general image generation, making one-step generation a natural solution. However, limited task-specific data makes training from scratch impractical, forcing existing methods to fine-tune pretrained models whose objectives do not encourage such straight conditional trajectories. Thus, the deviation from an ideal straight path mainly comes from the mismatch between pretrained base models and the conditional nature of try-on generation, rather than from the task itself. Motivated by this insight, we encourage straighter VTON sampling trajectories through three targeted modifications: pure conditional transport, a garment preservation loss, and a self consistency loss. We further introduce a one-step distillation stage. Extensive experiments show that our method achieves state-of-the-art performance with one-step sampling, establishing a new standard for efficient and high-quality VTON.
- Abstract(参考訳): 近年の拡散型および流動型VTON法は,事前学習された生成モデルにより強い結果が得られたが,多段階サンプリングへの依存は高い推論コストをもたらし,既存の加速法はトライオンタスクの本質的な構造をほとんど見落としている。
本稿では,VTONの出力は条件付き入力によって非常に制約され,条件付きサンプリング軌道は一般的な画像生成よりもはるかにストレートになり,ワンステップ生成が自然な解となることを示唆する。
しかし、タスク固有の限られたデータは、スクラッチからのトレーニングを非現実的にし、既存の手法は、そのような直接的な条件軌道を奨励しない事前訓練されたモデルを微調整せざるを得ない。
したがって、理想的な直線からの偏差は主に、事前訓練されたベースモデルと、タスク自体からではなく、試行生成の条件性とのミスマッチから生じる。
この知見により, 純条件輸送, 衣服の保存損失, 自己整合損失の3つの修正により, より直線的なVTONサンプリングトラジェクトリを奨励する。
さらに,1段階の蒸留工程を導入する。
広汎な実験により,本手法は1段階のサンプリングにより最先端の性能を達成し,高効率で高品質なVTONの新たな標準を確立した。
関連論文リスト
- Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - Euphonium: Steering Video Flow Matching via Process Reward Gradient Guided Stochastic Dynamics [49.242224984144904]
本稿では,プロセス報酬勾配誘導ダイナミクスによる生成を支援する新しいフレームワークであるEuphoniumを提案する。
我々の重要な洞察は、プロセス・リワード・モデルの勾配を明示的に組み込んだ理論的に原理化されたアルゴリズムとしてサンプリング・プロセスを定式化することである。
我々は,誘導信号をフローネットワークに内部化する蒸留目標を導出し,報奨モデルへの推論時間依存性を排除した。
論文 参考訳(メタデータ) (2026-02-04T08:59:57Z) - Universal Inverse Distillation for Matching Models with Real-Data Supervision (No GANs) [63.681263056053666]
提案するRealUIDは,GANを使わずに実データを蒸留プロセスにシームレスに組み込む,全てのマッチングモデルのための汎用蒸留フレームワークである。
我々のRealUIDアプローチは、フローマッチングと拡散モデルに対する以前の蒸留方法をカバーする単純な理論基盤を提供し、ブリッジマッチングや補間といった修正にも拡張されている。
論文 参考訳(メタデータ) (2025-09-26T15:12:02Z) - Efficient Virtuoso: A Latent Diffusion Transformer Model for Goal-Conditioned Trajectory Planning [0.0]
本稿では,目標条件付き軌道計画のための条件付き潜在拡散モデルであるEfficient Virtuosoを提案する。
提案手法は,Open Motionデータセット上での最先端性能を実現し,平均変位誤差(minADE)が0.25であることを示す。
一つのゴールが戦略的曖昧さを解決できる一方で、人間の運転行動を反映した正確で忠実な戦術実行を実現するためには、よりリッチで多段階のスパース経路が不可欠である。
論文 参考訳(メタデータ) (2025-09-03T19:18:02Z) - SCoT: Unifying Consistency Models and Rectified Flows via Straight-Consistent Trajectories [31.60548236936739]
本研究では,事前学習した拡散モデルに対する直線一貫性軌道(SCoT)モデルを提案する。
SCoTは、高速サンプリングのための両方のアプローチの利点を享受し、一貫した特性と直線的な性質のトラジェクトリを同時に生成する。
論文 参考訳(メタデータ) (2025-02-24T08:57:19Z) - SinSR: Diffusion-Based Image Super-Resolution in a Single Step [119.18813219518042]
拡散モデルに基づく超解像(SR)法は有望な結果を示す。
しかし、それらの実践的応用は、必要な推論ステップのかなりの数によって妨げられている。
本稿では,SinSRという単一ステップのSR生成を実現するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T16:21:29Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。