論文の概要: VersaVogue: Visual Expert Orchestration and Preference Alignment for Unified Fashion Synthesis
- arxiv url: http://arxiv.org/abs/2604.07210v1
- Date: Wed, 08 Apr 2026 15:31:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.611621
- Title: VersaVogue: Visual Expert Orchestration and Preference Alignment for Unified Fashion Synthesis
- Title(参考訳): VersaVogue: 統一ファッション合成のためのビジュアルエキスパートオーケストレーションと推奨アライメント
- Authors: Jian Yu, Fei Shen, Cong Wang, Yi Xin, Si Shen, Xiaoyu Du, Jinhui Tang,
- Abstract要約: VersaVogueは、コントロール可能なファッション合成のための統一されたフレームワークである。
衣料品生成と仮想ドレッシングをサポートし、ファッションライフサイクルのデザインとショートステージに対応する。
- 参考スコア(独自算出の注目度): 37.779702074028044
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion models have driven remarkable advancements in fashion image generation, yet prior works usually treat garment generation and virtual dressing as separate problems, limiting their flexibility in real-world fashion workflows. Moreover, fashion image synthesis under multi-source heterogeneous conditions remains challenging, as existing methods typically rely on simple feature concatenation or static layer-wise injection, which often causes attribute entanglement and semantic interference. To address these issues, we propose VersaVogue, a unified framework for multi-condition controllable fashion synthesis that jointly supports garment generation and virtual dressing, corresponding to the design and showcase stages of the fashion lifecycle. Specifically, we introduce a trait-routing attention (TA) module that leverages a mixture-of-experts mechanism to dynamically route condition features to the most compatible experts and generative layers, enabling disentangled injection of visual attributes such as texture, shape, and color. To further improve realism and controllability, we develop an automated multi-perspective preference optimization (MPO) pipeline that constructs preference data without human annotation or task-specific reward models. By combining evaluators of content fidelity, textual alignment, and perceptual quality, MPO identifies reliable preference pairs, which are then used to optimize the model via direct preference optimization (DPO). Extensive experiments on both garment generation and virtual dressing benchmarks demonstrate that VersaVogue consistently outperforms existing methods in visual fidelity, semantic consistency, and fine-grained controllability.
- Abstract(参考訳): 拡散モデルはファッション画像生成において顕著な進歩をもたらしたが、以前の研究は通常、衣料品生成と仮想ドレッシングを別の問題として扱い、現実のファッションワークフローにおける柔軟性を制限した。
さらに、既存の手法では、しばしば属性の絡み合いや意味的干渉を引き起こすような、単純な特徴結合や静的な層ワイドインジェクションに頼っているため、マルチソースの不均一な条件下でのファッション画像合成は依然として困難である。
これらの課題に対処するために,衣料品生成と仮想ドレッシングを共同でサポートするマルチコンディショナブルファッション合成のための統合フレームワークであるVersaVogueを提案する。
具体的には,コンディション特徴を最も互換性のある専門家や生成層に動的にルーティングし,テクスチャ,形状,色などの視覚的属性のアンタングル注入を可能にするための,知識の混合機構を活用した特性追従型アテンション(TA)モジュールを提案する。
現実性と制御性をさらに向上するため,人間のアノテーションやタスク固有の報酬モデルを使わずに嗜好データを構築する自動マルチパースペクティブ優先最適化(MPO)パイプラインを開発した。
コンテンツ忠実度、テキストアライメント、知覚品質の評価器を組み合わせることで、MPOは信頼性の高い選好ペアを特定し、直接選好最適化(DPO)によってモデルを最適化する。
衣服生成と仮想ドレッシングベンチマークの広範な実験により、VersaVogueは、視覚的忠実性、セマンティック一貫性、きめ細かい制御性において、既存の手法を一貫して上回っていることが示された。
関連論文リスト
- Unified Personalized Reward Model for Vision Generation [27.496220369122494]
視覚生成のためのパーソナライズされた報酬モデルであるUnifiedReward-Flexを提案する。
我々はまず,高度閉ソースVLMからブートストラップSFTまで,構造化された高品質な推論トレースを蒸留した。
次に、慎重にキュレートされた選好ペア上で直接選好最適化(DPO)を行い、推論の忠実度と識別的アライメントをさらに強化する。
論文 参考訳(メタデータ) (2026-02-02T17:44:21Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [22.960492450413497]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - Mogao: An Omni Foundation Model for Interleaved Multi-Modal Generation [54.588082888166504]
我々は、因果アプローチを通じてインターリーブされたマルチモーダル生成を可能にする統一的なフレームワークであるMogaoを提案する。
Mogooは、Deep-fusion設計、デュアルビジョンエンコーダ、インターリーブされた回転位置埋め込み、マルチモーダル分類器フリーガイダンスなど、アーキテクチャ設計における重要な技術的改善のセットを統合している。
実験により,モガオはマルチモーダル理解とテキスト・ツー・イメージ生成において最先端の性能を発揮するとともに,高品質でコヒーレントなインターリーブ・アウトプットの創出にも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-08T17:58:57Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。