論文の概要: SIFT-VTON: Geometric Correspondence Supervision on Cross-Attention for Virtual Try-On
- arxiv url: http://arxiv.org/abs/2605.01296v1
- Date: Sat, 02 May 2026 07:13:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.690001
- Title: SIFT-VTON: Geometric Correspondence Supervision on Cross-Attention for Virtual Try-On
- Title(参考訳): SIFT-VTON:仮想トライオンにおけるクロスアテンションの幾何学的対応
- Authors: Kosuke Takemoto, Takafumi Koshinaka,
- Abstract要約: 拡散に基づく仮想試行法は、衣服の特徴を対象の身体領域に伝達するクロスアテンション機構を通じて合成する。
SIFTキーポイントマッチングを用いたSIFT-VTONを提案する。
本手法は, SIFTキーポイントマッチングにドメイン固有フィルタリングを適用し, それらの対応関係を空間的確率分布に変換する。
- 参考スコア(独自算出の注目度): 4.707679002748909
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Diffusion-based virtual try-on methods achieve photorealistic synthesis through cross-attention mechanisms that transfer garment features to target body regions. However, these approaches rely on implicit learning of spatial correspondences, struggling to preserve fine details such as text and illustrations. We propose a novel approach, which we call SIFT-VTON, that utilizes SIFT keypoint matching to provide explicit geometric guidance for diffusion-based virtual try-on. Our method applies domain-specific filtering to SIFT keypoint matches between garment and person images, then converts these correspondences into spatial probability distributions that supervise cross-attention layers during training. This explicit supervision guides the model to learn precise spatial alignment, concentrating attention on geometrically consistent garment regions. Experiments on the VITON-HD dataset demonstrate significant improvements on unpaired metrics while maintaining competitive paired reconstruction metrics. Qualitative comparisons show superior preservation of text clarity and pattern alignment. Attention visualizations confirm that our method produces sharply focused attention on relevant garment details. This work demonstrates that classical geometric correspondence methods can effectively enhance modern diffusion models for conditional synthesis tasks. The source code will be available at https://github.com/takesukeDS/SIFT-VTON.
- Abstract(参考訳): 拡散に基づく仮想試行法は、衣服の特徴を対象の身体領域に伝達するクロスアテンション機構を通じて光現実的な合成を実現する。
しかし、これらのアプローチは空間的対応の暗黙的な学習に依存しており、テキストやイラストのような細部を保存するのに苦労している。
我々はSIFT-VTONと呼ばれる新しい手法を提案し、SIFTキーポイントマッチングを用いて拡散に基づく仮想試行のための明示的な幾何学的ガイダンスを提供する。
そこで本手法では,SIFTキーポイントマッチングにドメイン固有フィルタリングを適用し,それらの対応関係を空間的確率分布に変換することにより,トレーニング中のクロスアテンション層を監督する。
この明示的な監督は、幾何学的に一貫した衣服領域に注意を集中させ、正確な空間的アライメントを学習するためにモデルを導く。
VITON-HDデータセットの実験では、競合するペアの再構成メトリクスを維持しながら、未ペアのメトリクスに対する大幅な改善が示されている。
質的な比較では、テキストの明瞭さとパターンアライメントの保存性が優れている。
留意点の可視化により,本手法が関連する衣服の詳細に鋭く注意を払っていることが確認された。
この研究は、古典幾何学的対応法が条件合成タスクの現代拡散モデルを効果的に拡張できることを実証する。
ソースコードはhttps://github.com/takesukeDS/SIFT-VTON.comで入手できる。
関連論文リスト
- Enhancing Gradient Inversion Attacks in Federated Learning via Hierarchical Feature Optimization [56.95448807869383]
フェデレートラーニング(FL)は、プライバシを保存する分散機械学習の魅力的なパラダイムとして登場した。
近年の研究では、FLシステムで交換される勾配もプライバシー漏洩に弱いことが報告されている。
我々は textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD) を提案する。
論文 参考訳(メタデータ) (2026-04-01T14:32:15Z) - GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis [54.39598154430305]
本稿では,ペアビュー間の決定論的変換を直接学習するデータ間フローマッチングフレームワークを提案する。
PDG-FMは、事前訓練された拡散モデルの確率密度測定値から導かれる測地的補間剤を用いて流れの軌跡を制約する。
これらの結果は、一貫した新しいビュー生成のための決定論的フローマッチングにデータ依存の幾何正規化を組み込むことの利点を強調している。
論文 参考訳(メタデータ) (2026-03-01T09:30:11Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Style Transfer with Diffusion Models for Synthetic-to-Real Domain Adaptation [3.7051961231919393]
拡散モデルを用いた意味論的一貫したスタイル伝達のための2つの新しい手法を提案する。
GTA5をソースとして,Cityscapes/ACDCをターゲットドメインとして実験したところ,FIDスコアが低く,コンテンツ保存性が向上した高品質な画像が得られた。
論文 参考訳(メタデータ) (2025-05-22T08:11:10Z) - SMLNet: A SPD Manifold Learning Network for Infrared and Visible Image Fusion [60.18614468818683]
マルチモーダル画像融合のための新しいSPD(対称正定値)多様体学習を提案する。
我々のフレームワークは現在の最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-11-16T03:09:49Z) - HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space [1.1858475445768824]
本稿では、双曲幾何学を統合した視覚変換器(ViT)の新たな拡張である、双曲型視覚変換器(HVT)を紹介する。
従来のViTはユークリッド空間で作用するが、この手法は双曲的距離とM"オビウス変換を活用することにより自己認識機構を強化する。
厳密な数学的定式化を行い、双曲幾何学を注意層、フィードフォワードネットワーク、最適化に組み込む方法を示す。
論文 参考訳(メタデータ) (2024-09-25T13:07:37Z) - Explicit Correspondence Matching for Generalizable Neural Radiance Fields [66.99907718824782]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。