論文の概要: AlignVTOFF: Texture-Spatial Feature Alignment for High-Fidelity Virtual Try-Off
- arxiv url: http://arxiv.org/abs/2601.02038v1
- Date: Mon, 05 Jan 2026 11:50:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.054327
- Title: AlignVTOFF: Texture-Spatial Feature Alignment for High-Fidelity Virtual Try-Off
- Title(参考訳): AlignVTOFF:高忠実な仮想トライオフのためのテクスチャ空間的特徴アライメント
- Authors: Yihan Zhu, Mengying Ge,
- Abstract要約: 仮想トライオフ(Virtual Try-Off, VTOFF)は,高忠実度平坦な衣服を合成することを目的とした多モード画像生成課題である。
参照U-Netとテクスチャ空間特徴アライメント(TSFA)に基づく新しい並列U-NetフレームワークAlignVTOFFを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Virtual Try-Off (VTOFF) is a challenging multimodal image generation task that aims to synthesize high-fidelity flat-lay garments under complex geometric deformation and rich high-frequency textures. Existing methods often rely on lightweight modules for fast feature extraction, which struggles to preserve structured patterns and fine-grained details, leading to texture attenuation during generation.To address these issues, we propose AlignVTOFF, a novel parallel U-Net framework built upon a Reference U-Net and Texture-Spatial Feature Alignment (TSFA). The Reference U-Net performs multi-scale feature extraction and enhances geometric fidelity, enabling robust modeling of deformation while retaining complex structured patterns. TSFA then injects the reference garment features into a frozen denoising U-Net via a hybrid attention design, consisting of a trainable cross-attention module and a frozen self-attention module. This design explicitly aligns texture and spatial cues and alleviates the loss of high-frequency information during the denoising process.Extensive experiments across multiple settings demonstrate that AlignVTOFF consistently outperforms state-of-the-art methods, producing flat-lay garment results with improved structural realism and high-frequency detail fidelity.
- Abstract(参考訳): VTOFF(Virtual Try-Off)は、複雑な幾何学的変形とリッチな高周波テクスチャの下で高忠実度平坦な衣服を合成することを目的とした、挑戦的なマルチモーダル画像生成タスクである。
既存の手法は、しばしば高速な特徴抽出のために軽量なモジュールに依存しており、構造パターンの保存に苦しむため、生成中のテクスチャの減衰を招き、これらの問題に対処するために、参照U-Netとテクスチャ-空間特徴アライメント(TSFA)をベースに構築された新しい並列U-NetフレームワークであるAlignVTOFFを提案する。
参照U-Netはマルチスケールの特徴抽出を行い、幾何学的忠実度を高め、複雑な構造化パターンを維持しながら変形の堅牢なモデリングを可能にする。
TSFAは、トレーニング可能なクロスアテンションモジュールと凍結した自己アテンションモジュールからなるハイブリッドアテンション設計により、基準服の特徴を凍結されたU-Netに注入する。
この設計は, テクスチャと空間的手がかりを明示的に整列し, ノイズ発生過程における高周波情報の損失を軽減する。多種多様な実験により, AlignVTOFFが常に最先端の手法より優れており, 構造的リアリズムと高周波詳細フィディリティを改善したフラットレイの衣服結果が得られた。
関連論文リスト
- Sparse-Up: Learnable Sparse Upsampling for 3D Generation with High-Fidelity Textures [14.823320862738504]
本稿では,メモリ効率,高忠実度テクスチャモデリングフレームワークであるSparse-Upを提案する。
スパースボクセルを用いてテクスチャ再構築をガイドし、マルチビューの一貫性を確保する。
幾何整合性を犠牲にすることなく、高分解能ボクセルトレーニング中のメモリ消費量を大幅に削減できる。
論文 参考訳(メタデータ) (2025-09-28T05:06:03Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - DS-VTON: An Enhanced Dual-Scale Coarse-to-Fine Framework for Virtual Try-On [33.05238077456732]
仮想試行のための拡張デュアルスケール粗大化フレームワークDS-VTONを提案する。
DS-VTONは2つの段階から構成される: 第一は、衣服と身体の間の意味的対応を捉えるために、低解像度の試行結果を生成する。
第2段階では、混合精製拡散過程は、スケール間の残留物を精製することによって高分解能出力を再構成する。
論文 参考訳(メタデータ) (2025-06-01T08:52:57Z) - Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals [76.96387718150542]
テキスト強化Multi-category Virtual Try-Off(TEMU-VTOFF)を提案する。
私たちのアーキテクチャは、画像、テキスト、マスクなどの複数のモードから衣料情報を受け取り、複数のカテゴリで機能するように設計されています。
VITON-HDおよびDress Codeデータセットの実験では、TEMU-VTOFFがVTOFFタスクに新たな最先端を設定していることが示されている。
論文 参考訳(メタデータ) (2025-05-27T11:47:51Z) - HF-VTON: High-Fidelity Virtual Try-On via Consistent Geometric and Semantic Alignment [22.960492450413497]
HF-VTONは,多種多様なポーズにおける高忠実度仮想トライオン性能を保証する新しいフレームワークである。
HF-VTONは3つの主要なモジュールで構成されている: 外観保存型ワープアライメントモジュール、セマンティック表現モジュール、およびマルチモーダル事前誘導型外観生成モジュール。
実験の結果,HF-VTONはVITON-HDとSAMP-VTONSの両方で最先端の手法より優れていた。
論文 参考訳(メタデータ) (2025-05-26T07:55:49Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on [73.13242624924814]
Diffusion Transformer (DiT) を用いた高忠実度仮想試行用ガーメント知覚増強技術FitDiT
布地テクスチャ抽出装置を導入し, 布地や模様, テクスチャなどのリッチな細部を, よりよく捉えられるようにした。
また,クロスカテゴリー試着中にマスク領域全体を埋める衣服の発生を防止し,衣料の正しい長さに適応する拡張緩和マスク戦略を採用した。
論文 参考訳(メタデータ) (2024-11-15T11:02:23Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。