論文の概要: Each Attribute Matters: Contrastive Attention for Sentence-based Image
Editing
- arxiv url: http://arxiv.org/abs/2110.11159v1
- Date: Thu, 21 Oct 2021 14:06:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 01:16:13.391172
- Title: Each Attribute Matters: Contrastive Attention for Sentence-based Image
Editing
- Title(参考訳): それぞれの属性: 文ベースの画像編集における対照的な注意
- Authors: Liuqing Zhao, Fan Lyu, Fuyuan Hu, Kaizhu Huang, Fenglei Xu, Linyan Li
- Abstract要約: 文ベースの画像編集(SIE)は、画像の編集に自然言語をデプロイすることを目的としている。
既存の方法では、クエリ文が複数の編集可能な属性を持つ場合、正確な編集がほとんどできない。
本稿では,Contrastive Attention Generative Adversarial Network (CA-GAN) と呼ばれる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 13.321782757637303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence-based Image Editing (SIE) aims to deploy natural language to edit an
image. Offering potentials to reduce expensive manual editing, SIE has
attracted much interest recently. However, existing methods can hardly produce
accurate editing and even lead to failures in attribute editing when the query
sentence is with multiple editable attributes. To cope with this problem, by
focusing on enhancing the difference between attributes, this paper proposes a
novel model called Contrastive Attention Generative Adversarial Network
(CA-GAN), which is inspired from contrastive training. Specifically, we first
design a novel contrastive attention module to enlarge the editing difference
between random combinations of attributes which are formed during training. We
then construct an attribute discriminator to ensure effective editing on each
attribute. A series of experiments show that our method can generate very
encouraging results in sentence-based image editing with multiple attributes on
CUB and COCO dataset. Our code is available at
https://github.com/Zlq2021/CA-GAN
- Abstract(参考訳): 文ベースの画像編集(SIE)は、画像の編集に自然言語をデプロイすることを目的としている。
高価な手作業による編集を減らす可能性を提供するSIEは最近、多くの関心を集めている。
しかし、既存の方法では正確な編集ができないため、クエリ文が複数の編集可能な属性を持つ場合、属性編集が失敗することさえある。
この問題に対処するため,属性間の差異の増大に着目し,コントラスト学習から着想を得たContrastive Attention Generative Adversarial Network (CA-GAN) と呼ばれる新しいモデルを提案する。
具体的には,訓練中に生成する属性のランダム組み合わせ間の編集差を増大させるために,新しいコントラストアテンションモジュールをまず設計する。
次に属性識別器を構築し,各属性の効率的な編集を保証する。
CUBおよびCOCOデータセット上の複数の属性を用いた文ベースの画像編集において,本手法が極めて有望な結果が得られることを示す。
私たちのコードはhttps://github.com/Zlq2021/CA-GANで利用可能です。
関連論文リスト
- An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Exploring Attribute Variations in Style-based GANs using Diffusion
Models [48.98081892627042]
属性編集の多次元的性質をモデル化し,テキスト多元属性編集のタスクを定式化する。
我々は、事前訓練されたGANの非絡み合った潜伏空間を利用して、様々な編集のための潜伏分布を学習するために、Denoising Diffusion Probabilistic Model (DDPM)を訓練する。
論文 参考訳(メタデータ) (2023-11-27T18:14:03Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - Face Attribute Editing with Disentangled Latent Vectors [0.0]
顔属性編集のための画像から画像への変換フレームワークを提案する。
固定事前学習されたGANの潜在空間因子化作業にインスパイアされ、潜在空間因子化による属性編集を設計する。
意味的に整理された潜在空間に画像を投影するために,注意に基づくスキップ接続を備えたエンコーダデコーダアーキテクチャを構築した。
論文 参考訳(メタデータ) (2023-01-11T18:32:13Z) - ManiCLIP: Multi-Attribute Face Manipulation from Text [104.30600573306991]
テキスト記述に基づく新しい多属性顔操作法を提案する。
本手法は,テキスト関連属性の編集を最小限に抑えた自然な顔を生成する。
論文 参考訳(メタデータ) (2022-10-02T07:22:55Z) - HairCLIP: Design Your Hair by Text and Reference Image [100.85116679883724]
本稿では, 毛髪属性を個別に, 共同で操作できる新しい毛髪編集インタラクションモードを提案する。
画像とテキストの条件を共有埋め込み空間にエンコードし、統一的なヘア編集フレームワークを提案する。
念入りに設計されたネットワーク構造と損失関数により,我々のフレームワークは高品質な毛髪編集を行うことができる。
論文 参考訳(メタデータ) (2021-12-09T18:59:58Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。