論文の概要: MAD: Makeup All-in-One with Cross-Domain Diffusion Model
- arxiv url: http://arxiv.org/abs/2504.02545v1
- Date: Thu, 03 Apr 2025 12:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 17:07:05.387071
- Title: MAD: Makeup All-in-One with Cross-Domain Diffusion Model
- Title(参考訳): MAD:クロスドメイン拡散モデルによるオールインワン作成
- Authors: Bo-Kai Ruan, Hong-Han Shuai,
- Abstract要約: 私たちは、様々なメイクタスクに1つのモデルを使用する最初の試みを行っている。
異なる構成タスクをクロスドメイン翻訳として定式化し、クロスドメイン拡散モデルを用いて全てのタスクを遂行する。
正確なテキスト・ツー・メイクアップアプリケーションをサポートするため,MT-Textデータセットを導入する。
- 参考スコア(独自算出の注目度): 22.69055282492551
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing makeup techniques often require designing multiple models to handle different inputs and align features across domains for different makeup tasks, e.g., beauty filter, makeup transfer, and makeup removal, leading to increased complexity. Another limitation is the absence of text-guided makeup try-on, which is more user-friendly without needing reference images. In this study, we make the first attempt to use a single model for various makeup tasks. Specifically, we formulate different makeup tasks as cross-domain translations and leverage a cross-domain diffusion model to accomplish all tasks. Unlike existing methods that rely on separate encoder-decoder configurations or cycle-based mechanisms, we propose using different domain embeddings to facilitate domain control. This allows for seamless domain switching by merely changing embeddings with a single model, thereby reducing the reliance on additional modules for different tasks. Moreover, to support precise text-to-makeup applications, we introduce the MT-Text dataset by extending the MT dataset with textual annotations, advancing the practicality of makeup technologies.
- Abstract(参考訳): 既存のメイクアップ技術では、異なる入力を処理するために複数のモデルを設計し、異なるメークアップタスク(例えば、美容フィルター、メイクアップ転送、メークアップ削除など)のためにドメイン間で特徴を整列させ、複雑さを増す。
もう1つの制限は、テキストガイドによるメイクトライオンがないことだ。
本研究では,様々な化粧作業に単一モデルを用いた最初の試みを行う。
具体的には、異なる構成タスクをクロスドメイン翻訳として定式化し、すべてのタスクを達成するためにクロスドメイン拡散モデルを活用する。
異なるエンコーダ-デコーダ構成やサイクルベースの機構に依存する既存の手法とは異なり、ドメイン制御を容易にするために異なるドメイン埋め込みを提案する。
これにより、単一のモデルで埋め込みを変更するだけで、シームレスなドメインスイッチが可能になり、異なるタスクに対する追加モジュールへの依存を減らすことができる。
さらに、正確なテキスト・ツー・メイクアップアプリケーションをサポートするために、MTデータセットをテキストアノテーションで拡張することでMT-Textデータセットを導入し、メイクアップ技術の実用化を推し進める。
関連論文リスト
- FACEMUG: A Multimodal Generative and Fusion Framework for Local Facial Editing [10.123066253648307]
グローバル一貫性のある局所顔編集(FACEMUG)のための新しい枠組みを提案する。
幅広い入力モダリティを処理でき、未編集の部分をそのまま残しながら細粒度で意味的な操作を可能にする。
顔の特徴の整合性を改善するために,新しい自己教師付き潜時整合アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:53:54Z) - SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models [29.430749386234414]
本稿では,遅延拡散モデルを用いた自己教師付き階層的メイクアップトランスファー(SHMT)手法を提案する。
SHMTは自己教師型の方法で動作し、擬似ペアデータの誤認から解放される。
様々なメイクスタイルに対応するため、階層的なテクスチャの詳細はラプラシアのピラミッドを通して不正確である。
論文 参考訳(メタデータ) (2024-12-15T05:29:07Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - MMTryon: Multi-Modal Multi-Reference Control for High-Quality Fashion Generation [70.83668869857665]
MMTryonはマルチモーダルなマルチ参照VIrtual Try-ONフレームワークである。
テキスト命令と複数の衣料品画像を入力として、高品質な合成試行結果を生成することができる。
論文 参考訳(メタデータ) (2024-05-01T11:04:22Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs [77.86214400258473]
トレーニング不要なテキスト・画像生成/編集フレームワークであるRecaption, Plan and Generate(RPG)を提案する。
RPGは、マルチモーダルLLMの強力な連鎖推論能力を活用し、テキストから画像への拡散モデルの合成性を高める。
本フレームワークはMLLMアーキテクチャとの広範な互換性を示す。
論文 参考訳(メタデータ) (2024-01-22T06:16:29Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers [30.924202893340087]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本稿では,テキストベースのビデオ編集タスクを2段階に分割する。
まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数者を同時に編集する。
第2に,非自己回帰マスク生成変換器をベースとしたMaskINTという効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z) - Fashion Matrix: Editing Photos by Just Talking [66.83502497764698]
我々は、写真編集専用のFashion Matrixと呼ばれる階層型AIシステムを開発した。
Fashion MatrixはLarge Language Models (LLM) を基礎的なサポートとして採用し、ユーザとの反復的なインタラクションに従事している。
Visual Foundation Modelsは、テキストプロンプトとマスクから編集画像を生成するために活用され、ファッション編集プロセスの自動化を容易にする。
論文 参考訳(メタデータ) (2023-07-25T04:06:25Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings [76.85673049332428]
画像とテキストの合同表現の学習は、画像キャプションのようないくつかの重要なドメイン横断タスクのバックボーンを形成する。
ドメイン間の共有情報とドメイン固有の情報を個別にモデル化する,新しい半教師付きフレームワークを提案する。
画像キャプションやテキスト・ツー・イメージ合成など,様々なタスクにおけるモデルの有効性を示す。
論文 参考訳(メタデータ) (2020-02-16T19:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。