論文の概要: Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation
- arxiv url: http://arxiv.org/abs/2210.05872v1
- Date: Wed, 12 Oct 2022 02:21:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 14:39:25.494617
- Title: Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation
- Title(参考訳): オフ・ザ・シェルフ拡散モデルを用いた多属性ファッション画像操作
- Authors: Chaerin Kong, DongHyeon Jeon, Ohjoon Kwon, Nojun Kwak
- Abstract要約: ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
- 参考スコア(独自算出の注目度): 27.587905673112473
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fashion attribute editing is a task that aims to convert the semantic
attributes of a given fashion image while preserving the irrelevant regions.
Previous works typically employ conditional GANs where the generator explicitly
learns the target attributes and directly execute the conversion. These
approaches, however, are neither scalable nor generic as they operate only with
few limited attributes and a separate generator is required for each dataset or
attribute set. Inspired by the recent advancement of diffusion models, we
explore the classifier-guided diffusion that leverages the off-the-shelf
diffusion model pretrained on general visual semantics such as Imagenet. In
order to achieve a generic editing pipeline, we pose this as multi-attribute
image manipulation task, where the attribute ranges from item category, fabric,
pattern to collar and neckline. We empirically show that conventional methods
fail in our challenging setting, and study efficient adaptation scheme that
involves recently introduced attention-pooling technique to obtain a
multi-attribute classifier guidance. Based on this, we present a mask-free
fashion attribute editing framework that leverages the classifier logits and
the cross-attention map for manipulation. We empirically demonstrate that our
framework achieves convincing sample quality and attribute alignments.
- Abstract(参考訳): ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
従来は条件付きganを使用しており、ジェネレータはターゲット属性を明示的に学習し、直接変換を実行する。
しかし、これらのアプローチは拡張性も汎用性もないため、限られた属性だけで動作し、データセットや属性セットごとに別々のジェネレータが必要である。
近年の拡散モデルの発展に触発されて,imagenet のような一般視覚意味論に基づく既成の拡散モデルを利用した分類器誘導拡散について検討した。
汎用的な編集パイプラインを実現するために、属性はアイテムカテゴリ、ファブリック、パターンからカラー、ネックラインまで多属性画像操作タスクとして機能する。
従来の手法では難易度が低く,近年導入したマルチ属性分類器指導のためのアテンションプール方式を含む効率的な適応手法について検討した。
これに基づいて,分類器のロジットとクロスアテンションマップを利用したマスフリーなファッション属性編集フレームワークを提案する。
当社のフレームワークがサンプル品質と属性アライメントを説得できることを実証的に実証する。
関連論文リスト
- Attribute-Aware Implicit Modality Alignment for Text Attribute Person Search [19.610244285078483]
本稿では,テキスト属性と画像間の局所的な表現の対応を学習するためのAIMA(Attribute-Aware Implicit Modality Alignment)フレームワークを提案する。
提案手法は,現在の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-06-06T03:34:42Z) - Exploring Attribute Variations in Style-based GANs using Diffusion
Models [48.98081892627042]
属性編集の多次元的性質をモデル化し,テキスト多元属性編集のタスクを定式化する。
我々は、事前訓練されたGANの非絡み合った潜伏空間を利用して、様々な編集のための潜伏分布を学習するために、Denoising Diffusion Probabilistic Model (DDPM)を訓練する。
論文 参考訳(メタデータ) (2023-11-27T18:14:03Z) - Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale
Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。
本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。
我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文 参考訳(メタデータ) (2023-11-21T08:20:38Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z) - Everything is There in Latent Space: Attribute Editing and Attribute
Style Manipulation by StyleGAN Latent Space Exploration [39.18239951479647]
RAAME (Few-shot Latent-based Attribute Manipulation and Editing) について紹介する。
FLAMEは、遅延空間操作によって高度に制御された画像編集を行うためのフレームワークである。
様々な属性スタイルをアンタングル的に生成する。
論文 参考訳(メタデータ) (2022-07-20T12:40:32Z) - Attribute Group Editing for Reliable Few-shot Image Generation [85.52840521454411]
本稿では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
論文 参考訳(メタデータ) (2022-03-16T06:54:09Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - Diverse Image Generation via Self-Conditioned GANs [56.91974064348137]
手動でアノテートされたクラスラベルを使わずに、クラス条件付きGANモデルを訓練する。
代わりに、我々のモデルは、識別器の特徴空間におけるクラスタリングから自動的に派生したラベルに条件付きである。
我々のクラスタリングステップは、自動的に多様なモードを発見し、それらをカバーするためにジェネレータを明示的に必要とします。
論文 参考訳(メタデータ) (2020-06-18T17:56:03Z) - MulGAN: Facial Attribute Editing by Exemplar [2.272764591035106]
遅延特徴空間の予め定義された領域に画像の属性関連情報をエンコードする手法では、逆の属性を持つ一対の画像を列車モデルへの入力として利用する。
それらには、3つの制限がある:(1)モデルが入力として反対の属性を持つ一対のイメージを使用して訓練されなければならない;(2)複数の属性を例によって編集する能力の弱い;(3)画像生成の質が悪い。
論文 参考訳(メタデータ) (2019-12-28T04:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。