論文の概要: Content-Style Decoupling for Unsupervised Makeup Transfer without Generating Pseudo Ground Truth
- arxiv url: http://arxiv.org/abs/2405.17240v1
- Date: Mon, 27 May 2024 14:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:53:29.039111
- Title: Content-Style Decoupling for Unsupervised Makeup Transfer without Generating Pseudo Ground Truth
- Title(参考訳): 擬似地中真実の生成を伴わない教師なしメイクアップ転送のためのコンテンツスタイルデカップリング
- Authors: Zhaoyang Sun, Shengwu Xiong, Yaxiong Chen, Yi Rong,
- Abstract要約: モデルトレーニングを指導する真の目標が存在しないことは、メイクアップ転送タスクの大きな問題の1つである。
既存の手法の多くは擬似基底真理(PGT)によってこの問題に対処している。
本稿では,CSD-MT(Content-Style Decoupled Makeup Transfer)法を提案する。
- 参考スコア(独自算出の注目度): 19.777303324826327
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The absence of real targets to guide the model training is one of the main problems with the makeup transfer task. Most existing methods tackle this problem by synthesizing pseudo ground truths (PGTs). However, the generated PGTs are often sub-optimal and their imprecision will eventually lead to performance degradation. To alleviate this issue, in this paper, we propose a novel Content-Style Decoupled Makeup Transfer (CSD-MT) method, which works in a purely unsupervised manner and thus eliminates the negative effects of generating PGTs. Specifically, based on the frequency characteristics analysis, we assume that the low-frequency (LF) component of a face image is more associated with its makeup style information, while the high-frequency (HF) component is more related to its content details. This assumption allows CSD-MT to decouple the content and makeup style information in each face image through the frequency decomposition. After that, CSD-MT realizes makeup transfer by maximizing the consistency of these two types of information between the transferred result and input images, respectively. Two newly designed loss functions are also introduced to further improve the transfer performance. Extensive quantitative and qualitative analyses show the effectiveness of our CSD-MT method. Our code is available at https://github.com/Snowfallingplum/CSD-MT.
- Abstract(参考訳): モデルトレーニングを指導する真の目標が存在しないことは、メイクアップ転送タスクの大きな問題の1つである。
既存の手法の多くは擬似基底真理(PGT)を合成することでこの問題に対処している。
しかし、生成されたPGTは、しばしば準最適であり、その不正確さは最終的に性能劣化を引き起こす。
この問題を軽減するために,本論文では,純粋に教師なしの方法で動作し,PGTの生成による負の効果を排除した,コンテンツ型デカップリング・メイクアップ・トランスファー(CSD-MT)手法を提案する。
具体的には、周波数特性分析に基づいて、顔画像の低周波(LF)成分がメイクスタイル情報とより関連しているのに対し、高周波(HF)成分はその内容の詳細とより関連していると仮定する。
この仮定により、CSD-MTは周波数分解により、各顔画像のコンテンツとメイクスタイル情報を分離することができる。
その後、CSD-MTは、転送された結果と入力画像の2種類の情報の一貫性を最大化し、メイク転送を実現する。
2つの新たに設計された損失関数も導入され、転送性能がさらに向上した。
CSD-MT法の有効性について検討した。
私たちのコードはhttps://github.com/Snowfallingplum/CSD-MTで公開しています。
関連論文リスト
- Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - DiffMAC: Diffusion Manifold Hallucination Correction for High Generalization Blind Face Restoration [62.44659039265439]
視覚障害者の視力回復を支援するための拡散情報拡散フレームワークを提案する。
DiffMACは、多種多様な劣化シーンと異種ドメインにおいて、高度な顔の復元を実現する。
結果は,最先端手法よりもDiffMACの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-03-15T08:44:15Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Iterative Token Evaluation and Refinement for Real-World
Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。
本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。
ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文 参考訳(メタデータ) (2023-12-09T17:07:32Z) - Investigating Shift Equivalence of Convolutional Neural Networks in
Industrial Defect Segmentation [3.843350895842836]
産業欠陥分割タスクでは、モデルの出力整合性(等価性とも呼ばれる)がしばしば見過ごされる。
CNNにおける従来のサンプリングレイヤの代替として,コンポーネントアテンション多相サンプリング(CAPS)と呼ばれる新しいダウン/アップサンプリング層が提案されている。
マイクロサーフェス欠陥(MSD)データセットと4つの実世界の産業的欠陥データセットの実験結果から,提案手法は高い等価性とセグメンテーション性能を示すことが示された。
論文 参考訳(メタデータ) (2023-09-29T00:04:47Z) - PRISTA-Net: Deep Iterative Shrinkage Thresholding Network for Coded
Diffraction Patterns Phase Retrieval [6.982256124089]
位相検索は、計算画像および画像処理における非線型逆問題である。
我々は,1次反復しきい値しきい値アルゴリズム(ISTA)に基づく深層展開ネットワークであるPRISTA-Netを開発した。
非線形変換,しきい値,ステップサイズなど,提案するPRISTA-Netフレームワークのパラメータはすべて,設定されるのではなく,エンドツーエンドで学習される。
論文 参考訳(メタデータ) (2023-09-08T07:37:15Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer
Pre-Training [59.923672191632065]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - DiffBFR: Bootstrapping Diffusion Model Towards Blind Face Restoration [8.253458555695767]
ブラインド顔修復(BFR)のための拡散確率モデル(DPM)を導入するためのDiffBFRを提案する。
DPMはトレーニングの崩壊を回避し、長い尾の分布を生成する。
低画質の画像から識別情報を復元し、実際の顔の分布に応じてテクスチャの詳細を強化する。
論文 参考訳(メタデータ) (2023-05-08T07:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。