論文の概要: Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators?
- arxiv url: http://arxiv.org/abs/2011.09699v1
- Date: Thu, 19 Nov 2020 07:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:09:19.166542
- Title: Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators?
- Title(参考訳): スタイル介入:スタイルベースのジェネレータで空間的絡み合いを実現するには?
- Authors: Yunfan Liu, Qi Li, Zhenan Sun, Tieniu Tan
- Abstract要約: 任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
- 参考スコア(独自算出の注目度): 100.60938767993088
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generative Adversarial Networks (GANs) with style-based generators (e.g.
StyleGAN) successfully enable semantic control over image synthesis, and recent
studies have also revealed that interpretable image translations could be
obtained by modifying the latent code. However, in terms of the low-level image
content, traveling in the latent space would lead to `spatially entangled
changes' in corresponding images, which is undesirable in many real-world
applications where local editing is required. To solve this problem, we analyze
properties of the 'style space' and explore the possibility of controlling the
local translation with pre-trained style-based generators. Concretely, we
propose 'Style Intervention', a lightweight optimization-based algorithm which
could adapt to arbitrary input images and render natural translation effects
under flexible objectives. We verify the performance of the proposed framework
in facial attribute editing on high-resolution images, where both photo-realism
and consistency are required. Extensive qualitative results demonstrate the
effectiveness of our method, and quantitative measurements also show that the
proposed algorithm outperforms state-of-the-art benchmarks in various aspects.
- Abstract(参考訳): スタイルベースジェネレータ(例えばStyleGAN)を用いたGAN(Generative Adversarial Networks)は、画像合成のセマンティックコントロールをうまく実現し、近年の研究により、潜時コードを変更することで解釈可能な画像翻訳が得られることが明らかになった。
しかし、低レベルの画像コンテンツに関しては、潜在空間を移動すると対応する画像に「散発的に絡み合った変更」が起こるため、ローカル編集が必要な多くの実世界のアプリケーションでは望ましくない。
そこで本研究では,「スタイル空間」の特性を解析し,事前学習したスタイル・ジェネレータを用いて局所翻訳を制御する可能性を検討する。
具体的には,任意の入力画像に適応し,柔軟な目的の下で自然な翻訳効果を提示できる軽量な最適化に基づくアルゴリズムである「スタイル介入」を提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集におけるフレームワークの性能を検証する。
また,本手法の有効性を定量的に評価したところ,提案アルゴリズムは様々な面で最先端のベンチマークよりも優れていることがわかった。
関連論文リスト
- Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Spatially-Attentive Patch-Hierarchical Network with Adaptive Sampling
for Motion Deblurring [34.751361664891235]
そこで本稿では,異なる空間領域にまたがる大きなぼやけた変化を扱うために,画素適応化と特徴注意設計を提案する。
提案手法は,最先端のデブロワーリングアルゴリズムに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2024-02-09T01:00:09Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Optimizing Latent Space Directions For GAN-based Local Image Editing [15.118159513841874]
画像編集の局所性を評価するために,新たな目的関数を提案する。
我々のフレームワークであるLocally Effective Latent Space Direction (LELSD)は,任意のデータセットやGANアーキテクチャに適用可能である。
また,提案手法は高速であり,画像の編集を対話的に行うことが可能である。
論文 参考訳(メタデータ) (2021-11-24T16:02:46Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Content-Preserving Unpaired Translation from Simulated to Realistic
Ultrasound Images [12.136874314973689]
本稿では,シミュレーション画像と実画像の出現ギャップを橋渡しする新しい画像翻訳フレームワークを提案する。
この目的を達成するために,シミュレートされた画像とセマンティックセグメンテーションを併用する。
論文 参考訳(メタデータ) (2021-03-09T22:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。