Fugu-MT 論文翻訳(概要): Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation

論文の概要: Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation

arxiv url: http://arxiv.org/abs/2102.01187v1
Date: Mon, 1 Feb 2021 21:38:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-02-03 16:50:19.482093
Title: Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space Navigation
Title（参考訳）: 編集を楽しむ: 潜在空間ナビゲーションによる画像編集のための制御可能なgan
Authors: Peiye Zhuang, Oluwasanmi Koyejo, Alexander G. Schwing
Abstract要約: コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
参考スコア（独自算出の注目度）: 136.53288628437355
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable semantic image editing enables a user to change entire image attributes with few clicks, e.g., gradually making a summer scene look like it was taken in winter. Classic approaches for this task use a Generative Adversarial Net (GAN) to learn a latent space and suitable latent-space transformations. However, current approaches often suffer from attribute edits that are entangled, global image identity changes, and diminished photo-realism. To address these concerns, we learn multiple attribute transformations simultaneously, we integrate attribute regression into the training of transformation functions, apply a content loss and an adversarial loss that encourage the maintenance of image identity and photo-realism. We propose quantitative evaluation strategies for measuring controllable editing performance, unlike prior work which primarily focuses on qualitative evaluation. Our model permits better control for both single- and multiple-attribute editing, while also preserving image identity and realism during transformation. We provide empirical results for both real and synthetic images, highlighting that our model achieves state-of-the-art performance for targeted image manipulation.
Abstract（参考訳）: 制御可能なセマンティック画像編集により、ユーザーはクリック数が少なく画像属性全体を変更できます。例えば、夏のシーンは冬に撮影されたように徐々に見えます。このタスクの古典的なアプローチは、GAN(Generative Adversarial Net)を使用して、潜在空間と適切な潜在空間変換を学ぶ。しかし、現在のアプローチはしばしば、絡み合った属性編集、グローバルなイメージアイデンティティの変更、および写真リアリズムの減少に苦しんでいます。これらの懸念に対処するために,複数の属性変換を同時に学習し,属性回帰を変換関数のトレーニングに統合し,画像のアイデンティティとフォトリアリズムの維持を促進するコンテンツ損失と敵対的損失を適用する。質的評価を主とした先行作業とは異なり、制御可能な編集性能を測定するための定量的評価戦略を提案します。本モデルでは,画像の同一性やリアリズムを保ちながら,単一属性と複数属性の編集をよりよく制御することができる。実画像と合成画像の両方に対して実験結果を提供し,本モデルがターゲット画像操作の最先端性能を達成することを強調した。

関連論文リスト

AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
Generative Image Layer Decomposition with Visual Effects [49.75021036203426]
LayerDecompは、イメージ層分解のための生成フレームワークである。清潔な背景と、忠実に保存された視覚効果を持つ高品質な透明な前景を作り出す。本手法は,オブジェクト除去や空間編集作業において,既存の手法よりも優れた分解特性を実現する。
論文参考訳（メタデータ） (2024-11-26T20:26:49Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
A Compact and Semantic Latent Space for Disentangled and Controllable Image Editing [4.8201607588546]
本稿では,StyleGANの潜在空間を再編成するオートエンコーダを提案する。提案手法は,同一性に関して元の画像に対する忠実さを維持しつつ,競合する手法よりも不整合性が高いことを示す。
論文参考訳（メタデータ） (2023-12-13T16:18:45Z)
VecGAN: Image-to-Image Translation with Interpretable Latent Directions [4.7590051176368915]
VecGANは、画像から画像への変換フレームワークで、顔属性を解釈可能な潜在方向で編集する。 VecGANは、ローカルとグローバルの両方の編集の最先端よりも大幅に改善されている。
論文参考訳（メタデータ） (2022-07-07T16:31:05Z)
End-to-End Visual Editing with a Generatively Pre-Trained Artist [78.5922562526874]
対象画像編集の問題として、ソース画像内の領域と、所望の変更を指定したドライバ画像とをブレンドすることを考える。対象領域のオフザシェルフ画像を拡大することにより編集をシミュレートする自己教師型アプローチを提案する。我々は、モデルアーキテクチャに他の変更を加えることなく、拡張プロセスの直感的な制御によって異なるブレンディング効果が学習できることを示します。
論文参考訳（メタデータ） (2022-05-03T17:59:30Z)
Expanding the Latent Space of StyleGAN for Real Face Editing [4.1715767752637145]
セマンティックな操作に事前訓練されたStyleGANを使用するために、顔編集技術の急増が提案されている。実際の画像を編集するには、最初に入力された画像をStyleGANの潜伏変数に変換する必要がある。本稿では,低歪みと高編集性の間のトレードオフを断ち切るために,コンテンツ機能の追加により,StyleGANの潜伏空間を拡張する手法を提案する。
論文参考訳（メタデータ） (2022-04-26T18:27:53Z)
One-shot domain adaptation for semantic face editing of real world images using StyleALAE [7.541747299649292]
styleALAEは遅延空間ベースのオートエンコーダで、高品質のフォトリアリスティック画像を生成することができる。我々の研究は、再構成された画像の同一性が与えられた入力画像と同じであることを保証します。さらに、事前訓練されたスタイルALAEモデルの潜在空間を用いて、再構成画像に対する意味的な修正を生成する。
論文参考訳（メタデータ） (2021-08-31T14:32:18Z)
PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文参考訳（メタデータ） (2020-09-20T17:53:51Z)
Look here! A parametric learning based approach to redirect visual attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文参考訳（メタデータ） (2020-08-12T16:08:36Z)
Semantic Photo Manipulation with a Generative Image Prior [86.01714863596347]
GANは、ユーザスケッチ、テキスト、セマンティックラベルなどの入力に条件付きイメージを合成することができる。 GANが入力画像を正確に再現することは困難である。本稿では,GANが以前に学んだイメージを個々の画像の統計に適応させることにより,これらの問題に対処する。提案手法は,入力画像の外観と一致して,入力画像を正確に再構成し,新たなコンテンツを合成することができる。
論文参考訳（メタデータ） (2020-05-15T18:22:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。