論文の概要: 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2501.05369v1
- Date: Thu, 09 Jan 2025 16:49:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:58:58.512226
- Title: 1-2-1: Renaissance of Single-Network Paradigm for Virtual Try-On
- Title(参考訳): 1-2-1:仮想トライオンのためのシングルネットワークパラダイムのルネサンス
- Authors: Shuliang Ning, Yipeng Qin, Xiaoguang Han,
- Abstract要約: 本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON法を提案する。
MNVTONと呼ばれる本手法では,テキスト,画像,ビデオの入力を別々に処理するモダリティ固有の正規化戦略を導入する。
その結果,シングルネットワーク・パラダイムはデュアルネットワーク・アプローチのパフォーマンスに匹敵する可能性が示唆された。
- 参考スコア(独自算出の注目度): 17.226542332700607
- License:
- Abstract: Virtual Try-On (VTON) has become a crucial tool in ecommerce, enabling the realistic simulation of garments on individuals while preserving their original appearance and pose. Early VTON methods relied on single generative networks, but challenges remain in preserving fine-grained garment details due to limitations in feature extraction and fusion. To address these issues, recent approaches have adopted a dual-network paradigm, incorporating a complementary "ReferenceNet" to enhance garment feature extraction and fusion. While effective, this dual-network approach introduces significant computational overhead, limiting its scalability for high-resolution and long-duration image/video VTON applications. In this paper, we challenge the dual-network paradigm by proposing a novel single-network VTON method that overcomes the limitations of existing techniques. Our method, namely MNVTON, introduces a Modality-specific Normalization strategy that separately processes text, image and video inputs, enabling them to share the same attention layers in a VTON network. Extensive experimental results demonstrate the effectiveness of our approach, showing that it consistently achieves higher-quality, more detailed results for both image and video VTON tasks. Our results suggest that the single-network paradigm can rival the performance of dualnetwork approaches, offering a more efficient alternative for high-quality, scalable VTON applications.
- Abstract(参考訳): VTON(Virtual Try-On)は、eコマースにおいて重要なツールとなり、オリジナルの外観とポーズを保ちながら、個人の衣服の現実的なシミュレーションを可能にする。
初期のVTON法は単一の生成ネットワークに頼っていたが、特徴抽出と融合の制限のため、細かな衣服の細部を保存することには課題が残っている。
これらの問題に対処するため、近年のアプローチでは、衣服の特徴抽出と融合を強化するために、補完的な"ReferenceNet"を取り入れたデュアルネットワークパラダイムが採用されている。
このデュアルネットワークアプローチは、高解像度で長期の画像/ビデオVTONアプリケーションに対するスケーラビリティを制限し、計算オーバーヘッドを大幅に削減する。
本稿では,既存の手法の限界を克服する新しいシングルネットワークVTON手法を提案することによって,デュアルネットワークパラダイムに挑戦する。
我々の手法であるMNVTONは、テキスト、画像、ビデオの入力を別々に処理し、VTONネットワークで同じ注意層を共有できるModality-specific Normalization戦略を導入している。
画像とビデオのVTONタスクにおいて,より高品質で詳細な結果が得られることを実証し,本手法の有効性を実証した。
我々の研究結果は、シングルネットワークパラダイムがデュアルネットワークアプローチのパフォーマンスに匹敵し、高品質でスケーラブルなVTONアプリケーションに対してより効率的な代替手段を提供することを示唆している。
関連論文リスト
- CatVTON: Concatenation Is All You Need for Virtual Try-On with Diffusion Models [77.39903417768967]
CatVTONは仮想的な試着拡散モデルであり、任意のカテゴリーの衣服をターゲット個人に転送する。
CatVTONはVAEと単純化されたUNetのみで構成され、冗長な画像とテキストエンコーダを除去する。
実験により、CatVTONはベースライン法に比べて質的、定量的に優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2024-07-21T11:58:53Z) - D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - GFN: A graph feedforward network for resolution-invariant reduced operator learning in multifidelity applications [0.0]
本研究は,多忠実度アプリケーションのための新しい分解能不変モデルオーダー削減戦略を提案する。
我々はこの研究で開発された新しいニューラルネットワーク層、グラフフィードフォワードネットワークに基づいてアーキテクチャを構築した。
パラメトリックな偏微分方程式に対する自己エンコーダに基づく還元戦略において,異なるメッシュサイズでのトレーニングとテストの能力を利用する。
論文 参考訳(メタデータ) (2024-06-05T18:31:37Z) - A-SDM: Accelerating Stable Diffusion through Model Assembly and Feature Inheritance Strategies [51.7643024367548]
安定拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)生成のための一般的かつ効果的なモデルである。
本研究では、SDMにおける冗長計算の削減と、チューニング不要とチューニング不要の両方の手法によるモデルの最適化に焦点をあてる。
論文 参考訳(メタデータ) (2024-05-31T21:47:05Z) - Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Learning Multi-Granular Spatio-Temporal Graph Network for Skeleton-based
Action Recognition [49.163326827954656]
骨格に基づく行動分類のための新しい多言語時空間グラフネットワークを提案する。
2つの枝の枝からなるデュアルヘッドグラフネットワークを開発し、少なくとも2つの時間分解能を抽出する。
3つの大規模データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-08-10T09:25:07Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Parameter Sharing Exploration and Hetero-Center based Triplet Loss for
Visible-Thermal Person Re-Identification [17.402673438396345]
本稿では,VT Re-ID(VT Re-ID)タスクについて述べる。
提案手法は,最先端の手法を大きなマージンで明らかに上回っている。
論文 参考訳(メタデータ) (2020-08-14T07:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。