論文の概要: Context-Consistent Semantic Image Editing with Style-Preserved
Modulation
- arxiv url: http://arxiv.org/abs/2207.06252v1
- Date: Wed, 13 Jul 2022 14:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:03:26.011317
- Title: Context-Consistent Semantic Image Editing with Style-Preserved
Modulation
- Title(参考訳): スタイル保存変調を用いた文脈整合意味画像編集
- Authors: Wuyang Luo, Su Yang, Hong Wang, Bo Long, and Weishan Zhang
- Abstract要約: 2つの変調プロセスからなるスタイル保存変調(SPM)を提案する。
SPMは、イメージ固有のコンテキストスタイルを保持しながら、与えられたセマンティックレイアウトを注入することができる。
我々は、粗大な方法で編集されたコンテンツを生成するプログレッシブアーキテクチャを設計する。
- 参考スコア(独自算出の注目度): 12.86272978378473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic image editing utilizes local semantic label maps to generate the
desired content in the edited region. A recent work borrows SPADE block to
achieve semantic image editing. However, it cannot produce pleasing results due
to style discrepancy between the edited region and surrounding pixels. We
attribute this to the fact that SPADE only uses an image-independent local
semantic layout but ignores the image-specific styles included in the known
pixels. To address this issue, we propose a style-preserved modulation (SPM)
comprising two modulations processes: The first modulation incorporates the
contextual style and semantic layout, and then generates two fused modulation
parameters. The second modulation employs the fused parameters to modulate
feature maps. By using such two modulations, SPM can inject the given semantic
layout while preserving the image-specific context style. Moreover, we design a
progressive architecture for generating the edited content in a coarse-to-fine
manner. The proposed method can obtain context-consistent results and
significantly alleviate the unpleasant boundary between the generated regions
and the known pixels.
- Abstract(参考訳): セマンティック画像編集は、ローカルセマンティックラベルマップを使用して、編集領域で所望のコンテンツを生成する。
最近の研究は、セマンティック画像編集を実現するためにSPADEブロックを借りている。
しかし, 編集領域と周辺画素とのスタイルの相違により, 満足な結果が得られない。
SPADEは画像に依存しない局所的なセマンティックレイアウトのみを使用するが、既知のピクセルに含まれる画像固有のスタイルを無視する。
この問題に対処するため、我々は2つの変調プロセスからなるスタイル保存型変調(SPM)を提案する: 最初の変調は文脈的スタイルと意味的レイアウトを取り入れ、2つの融合型変調パラメータを生成する。
第2の変調は、特徴写像を変調するために融合パラメータを用いる。
このような2つの変調を使用することで、SPMは画像固有のコンテキストスタイルを保持しながら、与えられたセマンティックレイアウトを注入することができる。
さらに,大まかに編集されたコンテンツを生成するためのプログレッシブアーキテクチャを設計する。
提案手法はコンテキスト一貫性のある結果を得ることができ、生成された領域と既知のピクセルとの間の不快な境界を著しく緩和することができる。
関連論文リスト
- Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing [4.948910649137149]
拡散変換器(DiT)は近年,テキスト誘導画像生成において顕著な成功を収めている。
マルチモーダルな情報がこのジョイント空間を集合的に形成し、合成画像のセマンティクスをいかに導くかを示す。
ゼロショットきめ細かい画像編集のための簡易かつ効果的なEncode-Identify-Manipulate (EIM) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T21:34:30Z) - Enhancing Text-to-Image Editing via Hybrid Mask-Informed Fusion [61.42732844499658]
本稿では拡散モデルに基づくテキスト誘導画像編集手法を体系的に改善する。
我々は、人間のアノテーションを外部知識として組み込んで、Mask-informed'領域内で編集を限定する。
論文 参考訳(メタデータ) (2024-05-24T07:53:59Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Entity-Level Text-Guided Image Manipulation [70.81648416508867]
実世界の実体レベルにおけるテキスト誘導画像操作の新しい課題(eL-TGIM)について検討する。
本稿では,実世界の画像のセマンティック・マニピュレーション(Semantic Manipulation)を形成する,セマンニ(Semani)と呼ばれるエレガントなフレームワークを提案する。
セマンティクスアライメントフェーズでは、セマンティクスアライメントモジュールを使用して、操作対象のエンティティ関連領域を特定する。
画像操作フェーズでは、SeManiは生成モデルを採用し、エンティティ非関連領域に条件付された新しい画像とターゲットテキスト記述を合成する。
論文 参考訳(メタデータ) (2023-02-22T13:56:23Z) - Towards Arbitrary Text-driven Image Manipulation via Space Alignment [49.3370305074319]
スペースアライメント(TMSA)を用いた新しいテキスト駆動画像操作フレームワークを提案する。
TMSAはCLIPとStyleGAN空間で同じセマンティック領域を整列することを目的としている。
このフレームワークは、追加コストなしで任意の画像編集モードをサポートすることができる。
論文 参考訳(メタデータ) (2023-01-25T16:20:01Z) - $S^2$-Flow: Joint Semantic and Style Editing of Facial Images [16.47093005910139]
GAN(Generative Adversarial Network)は、画像編集への応用に関する調査をモチベーションとしている。
GANは特定の編集を行うために提供されるコントロールに制限されることが多い。
本稿では,GAN$text'$s潜在空間を意味空間とスタイル空間に分解する手法を提案する。
論文 参考訳(メタデータ) (2022-11-22T12:00:02Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Towards Controllable and Photorealistic Region-wise Image Manipulation [11.601157452472714]
地域ごとのスタイル操作のための自動エンコーダアーキテクチャを用いた生成モデルを提案する。
我々は、コンテンツとスタイルの潜在表現の明示的な乱れを強制するために、コード一貫性の損失を適用します。
このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。
論文 参考訳(メタデータ) (2021-08-19T13:29:45Z) - Manifold Alignment for Semantically Aligned Style Transfer [61.1274057338588]
我々は,同じ意味領域からの画像特徴が多様体を形成し,複数の意味領域を持つ画像が多次元分布に従うことを仮定する。
この仮定に基づき、スタイル伝達問題は2つの多次元分布の整列として定式化される。
提案したフレームワークは、出力とスタイルイメージの間の意味的に類似した領域を、類似したスタイルパターンを共有することができる。
論文 参考訳(メタデータ) (2020-05-21T16:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。