論文の概要: CORAL: Correspondence Alignment for Improved Virtual Try-On
- arxiv url: http://arxiv.org/abs/2602.17636v1
- Date: Thu, 19 Feb 2026 18:50:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.401151
- Title: CORAL: Correspondence Alignment for Improved Virtual Try-On
- Title(参考訳): Coral: 仮想トライオンの改善のための対応アライメント
- Authors: Jiyoung Kim, Youngjin Shin, Siyoon Jin, Dahyun Chung, Jisu Nam, Tongmin Kim, Jongjae Park, Hyeonwoo Kang, Seungryong Kim,
- Abstract要約: VTON(Virtual Try-On)の既存の手法は、未使用の環境で細かい衣服の詳細を保存するのに苦労することが多い。
我々は、クエリキーマッチングと堅牢な外部対応を明示的に整合させるDiTベースのフレームワークであるCOR correspondingence ALignment (CORAL)を紹介する。
コラルは一貫してベースラインを改良し、グローバルな形状移動と局所的な細部保存の両方を強化している。
- 参考スコア(独自算出の注目度): 31.739765916550528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing methods for Virtual Try-On (VTON) often struggle to preserve fine garment details, especially in unpaired settings where accurate person-garment correspondence is required. These methods do not explicitly enforce person-garment alignment and fail to explain how correspondence emerges within Diffusion Transformers (DiTs). In this paper, we first analyze full 3D attention in DiT-based architecture and reveal that the person-garment correspondence critically depends on precise person-garment query-key matching within the full 3D attention. Building on this insight, we then introduce CORrespondence ALignment (CORAL), a DiT-based framework that explicitly aligns query-key matching with robust external correspondences. CORAL integrates two complementary components: a correspondence distillation loss that aligns reliable matches with person-garment attention, and an entropy minimization loss that sharpens the attention distribution. We further propose a VLM-based evaluation protocol to better reflect human preference. CORAL consistently improves over the baseline, enhancing both global shape transfer and local detail preservation. Extensive ablations validate our design choices.
- Abstract(参考訳): VTON(Virtual Try-On)の既存の手法は、特に正確な人着対応が必要な不用意な環境では、細かな衣服の詳細を保存するのに苦労することが多い。
これらの手法は、人着のアライメントを明示的に強制せず、Diffusion Transformer (DiT) 内でどのように対応が現れるかを説明するのに失敗する。
本稿では、まず、DiTアーキテクチャにおける全3次元の注意を解析し、人着の対応が、全3次元の注意の中で正確な人着のクエリキーマッチングに依存することを明らかにする。
この知見に基づいて、クエリキーマッチングと堅牢な外部対応を明示的に整合させるDiTベースのフレームワークであるCOR correspondingence ALignment (CORAL)を導入する。
コーラルは2つの相補的な要素を統合する: 信頼できる一致を人着注意と整合させる対応蒸留損失と、注意分布を鋭くするエントロピー最小化損失である。
また、人間の嗜好をよりよく反映するVLMに基づく評価プロトコルを提案する。
コラルは一貫してベースラインを改良し、グローバルな形状移動と局所的な細部保存の両方を強化している。
大規模な改善は、私たちの設計選択を検証します。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Untwisting RoPE: Frequency Control for Shared Attention in DiTs [84.14005261938284]
位置符号化はトランスフォーマーベースの生成モデルに不可欠である。
ロータリー・ポジショナル・エンベディング (RoPE) は, 異なる位置感性を有する周波数成分に自然に分解されることを示す。
本稿では,厳密な位置アライメントよりも意味的類似性を反映するように,RoPE周波数帯域を選択的に変調する手法を提案する。
論文 参考訳(メタデータ) (2026-02-04T20:01:59Z) - Learning Fine-Grained Correspondence with Cross-Perspective Perception for Open-Vocabulary 6D Object Pose Estimation [14.262846967061947]
微粒化対応ポース推定(FiCoP)は、ノイズの発するグローバルマッチングから空間的に制約されたパッチレベル対応へ移行するフレームワークである。
FiCoPは、最先端の手法と比較して平均リコールを8.0%と6.1%改善する。
論文 参考訳(メタデータ) (2026-01-20T03:48:54Z) - Cross-modal Full-mode Fine-grained Alignment for Text-to-Image Person Retrieval [54.90229711181207]
TIPR (Text-to-Image Person Retrieval) は、与えられたテキストクエリに基づいて、最も関連性の高い人物画像を取得することを目的としている。
TIPRの鍵となる課題は、テキストと視覚のモダリティの効果的なアライメントを達成することである。
FMFA, クロスモーダルフルモーデファインファインファインファインアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-17T07:12:05Z) - Incorporating Visual Correspondence into Diffusion Model for Virtual Try-On [89.9123806553489]
拡散モデルは仮想試行(VTON)タスクで成功している。
この問題は、拡散モデルの本質性により、与えられた衣服の形状や細部を保存することは依然として困難である。
本稿では,視力の拡散前処理として視覚的対応を明示的に活用することを提案する。
論文 参考訳(メタデータ) (2025-05-22T17:52:13Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - Progressive Correspondence Regenerator for Robust 3D Registration [45.42736215407887]
レギュアはプログレッシブ対応再生器であり、多くの異常値に対して高品質なマッチを生成する。
我々は、グローバルな観点から正確な対応を得るために、グローバルな対応強化を採用している。
提案手法は,外乱除去法よりも10倍の精度で対応できる。
論文 参考訳(メタデータ) (2025-02-04T09:38:45Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Inducing and Using Alignments for Transition-based AMR Parsing [51.35194383275297]
複雑なパイプラインに依存することなくノード間アライメントを学習するAMRのためのニューラルアライメント器を提案する。
我々は,AMR3.0のビームサーチを必要とせず,銀のトレーニングされた性能に適合する,金のみのトレーニングモデルのための新しい最先端技術を得た。
論文 参考訳(メタデータ) (2022-05-03T12:58:36Z) - COTReg:Coupled Optimal Transport based Point Cloud Registration [28.730827908402286]
本稿では,3次元点雲登録の対応性を予測するための学習フレームワークCOTRegを提案する。
2つのマッチングをワッサーシュタイン距離ベースとグロモフ=ワッサーシュタイン距離ベース最適化に変換する。
我々の対応予測パイプラインは、FCGFのような学習ベースの機能やFPFHのような伝統的な記述子に簡単に統合できます。
論文 参考訳(メタデータ) (2021-12-29T03:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。