論文の概要: Towards Controllable and Photorealistic Region-wise Image Manipulation
- arxiv url: http://arxiv.org/abs/2108.08674v1
- Date: Thu, 19 Aug 2021 13:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-20 20:56:58.146563
- Title: Towards Controllable and Photorealistic Region-wise Image Manipulation
- Title(参考訳): 制御可能・フォトリアリスティック領域画像マニピュレーションに向けて
- Authors: Ansheng You, Chenglin Zhou, Qixuan Zhang, Lan Xu
- Abstract要約: 地域ごとのスタイル操作のための自動エンコーダアーキテクチャを用いた生成モデルを提案する。
我々は、コンテンツとスタイルの潜在表現の明示的な乱れを強制するために、コード一貫性の損失を適用します。
このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。
- 参考スコア(独自算出の注目度): 11.601157452472714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive and flexible image editing is a desirable function of modern
generative models. In this work, we present a generative model with
auto-encoder architecture for per-region style manipulation. We apply a code
consistency loss to enforce an explicit disentanglement between content and
style latent representations, making the content and style of generated samples
consistent with their corresponding content and style references. The model is
also constrained by a content alignment loss to ensure the foreground editing
will not interfere background contents. As a result, given interested region
masks provided by users, our model supports foreground region-wise style
transfer. Specially, our model receives no extra annotations such as semantic
labels except for self-supervision. Extensive experiments show the
effectiveness of the proposed method and exhibit the flexibility of the
proposed model for various applications, including region-wise style editing,
latent space interpolation, cross-domain style transfer.
- Abstract(参考訳): 適応的かつ柔軟な画像編集は、現代の生成モデルの望ましい機能である。
本稿では,領域ごとのスタイル操作のための自動エンコーダアーキテクチャを備えた生成モデルを提案する。
我々は、コード一貫性の損失を適用して、コンテンツとスタイル潜在表現の明確な違いを強制し、生成されたサンプルのコンテンツとスタイルが対応するコンテンツとスタイル参照と一致するようにします。
このモデルは、前景編集が背景コンテンツに干渉しないように、コンテンツアライメント損失によって制約される。
その結果,ユーザによる興味のある領域マスクが与えられた場合,前景の領域毎の転送をサポートする。
特に,本モデルでは,自己スーパービジョン以外のセマンティックラベルなどのアノテーションは受け取らない。
広域実験により,提案手法の有効性を示し,領域毎の編集,潜在空間補間,クロスドメイン方式の転送など,様々なアプリケーションに対して提案モデルの柔軟性を示す。
関連論文リスト
- RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control [43.96257216397601]
拡散モデルの学習自由なパーソナライズのための新しいプラグアンドプレイソリューションを提案する。
RB-Modulationは、スタイル記述子が所望の属性をエンコードする新しい最適コントローラ上に構築されている。
クロスアテンションに基づく特徴集約方式により、RB変調は参照画像から内容とスタイルを分離することができる。
論文 参考訳(メタデータ) (2024-05-27T17:51:08Z) - Zero-shot Inversion Process for Image Attribute Editing with Diffusion
Models [9.924851219904843]
本稿では,事前学習した拡散モデルのセマンティック潜在空間に生成した視覚参照とテキストガイダンスの融合を注入するフレームワークを提案する。
提案したZIPは、小さなニューラルネットワークのみを使用して、テキストプロンプトの直感的な制御の下で、多様なコンテンツや属性を生成する。
最先端の手法と比較して、ZIPはリアルな編集効果を提供しながら、同等の画質の画像を生成する。
論文 参考訳(メタデータ) (2023-08-30T08:40:15Z) - MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。
そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。
複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文 参考訳(メタデータ) (2023-03-17T08:35:17Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Towards Full-to-Empty Room Generation with Structure-Aware Feature
Encoding and Soft Semantic Region-Adaptive Normalization [67.64622529651677]
本稿では,ソフトセマンティックな領域適応正規化モジュール (softSEAN) ブロックを提案する。
我々のアプローチは、トレーニングの複雑さと非微分可能性の問題を緩和することの利点の他に、比較した手法を量的にも質的にも上回っている。
我々のSoftSEANブロックは、既存の識別および生成モデルのためのドロップインモジュールとして使用することができる。
論文 参考訳(メタデータ) (2021-12-10T09:00:13Z) - Controllable Person Image Synthesis with Spatially-Adaptive Warped
Normalization [72.65828901909708]
制御可能な人物画像生成は、望ましい属性を持つ現実的な人間の画像を作成することを目的としている。
本稿では,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。
本稿では,テクスチャ・トランスファータスクの事前学習モデルを洗練するための,新たな自己学習部分置換戦略を提案する。
論文 参考訳(メタデータ) (2021-05-31T07:07:44Z) - StyleMeUp: Towards Style-Agnostic Sketch-Based Image Retrieval [119.03470556503942]
クロスモーダルマッチング問題は通常、写真とスケッチのモダリティ間で共有されるセマンティックコンテンツを保存する共同埋め込み空間を学習することによって解決される。
効果的なモデルには、このスタイルの多様性を明確に説明する必要がある。
我々のモデルは、モデム間で共有されるセマンティックコンテンツだけでなく、目に見えないユーザースタイルにも適応できるので、モデルは真に不可知的です。
論文 参考訳(メタデータ) (2021-03-29T15:44:19Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - Manifold Alignment for Semantically Aligned Style Transfer [61.1274057338588]
我々は,同じ意味領域からの画像特徴が多様体を形成し,複数の意味領域を持つ画像が多次元分布に従うことを仮定する。
この仮定に基づき、スタイル伝達問題は2つの多次元分布の整列として定式化される。
提案したフレームワークは、出力とスタイルイメージの間の意味的に類似した領域を、類似したスタイルパターンを共有することができる。
論文 参考訳(メタデータ) (2020-05-21T16:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。