論文の概要: $S^2$-Flow: Joint Semantic and Style Editing of Facial Images
- arxiv url: http://arxiv.org/abs/2211.12209v1
- Date: Tue, 22 Nov 2022 12:00:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 18:21:51.977305
- Title: $S^2$-Flow: Joint Semantic and Style Editing of Facial Images
- Title(参考訳): $s^2$-flow:ジョイント・セマンティクスと顔画像のスタイル編集
- Authors: Krishnakant Singh, Simone Schaub-Meyer, Stefan Roth
- Abstract要約: GAN(Generative Adversarial Network)は、画像編集への応用に関する調査をモチベーションとしている。
GANは特定の編集を行うために提供されるコントロールに制限されることが多い。
本稿では,GAN$text'$s潜在空間を意味空間とスタイル空間に分解する手法を提案する。
- 参考スコア(独自算出の注目度): 16.47093005910139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high-quality images yielded by generative adversarial networks (GANs)
have motivated investigations into their application for image editing.
However, GANs are often limited in the control they provide for performing
specific edits. One of the principal challenges is the entangled latent space
of GANs, which is not directly suitable for performing independent and detailed
edits. Recent editing methods allow for either controlled style edits or
controlled semantic edits. In addition, methods that use semantic masks to edit
images have difficulty preserving the identity and are unable to perform
controlled style edits. We propose a method to disentangle a GAN$\text{'}$s
latent space into semantic and style spaces, enabling controlled semantic and
style edits for face images independently within the same framework. To achieve
this, we design an encoder-decoder based network architecture ($S^2$-Flow),
which incorporates two proposed inductive biases. We show the suitability of
$S^2$-Flow quantitatively and qualitatively by performing various semantic and
style edits.
- Abstract(参考訳): generative adversarial networks (gans) によって得られた高品質な画像は、画像編集への応用に関する調査の動機となっている。
しかしながら、GANは特定の編集を行うためのコントロールに制限されることが多い。
主な課題の1つは、GANの絡み合った潜伏空間である。
最近の編集方法では、スタイル編集またはセマンティクス編集を制御できる。
さらに、画像編集にセマンティックマスクを使用する手法では、アイデンティティの保持が困難であり、スタイル編集の制御ができない。
我々は、gan$\text{'}$sの潜在空間を意味空間とスタイル空間に分解する方法を提案し、同じフレームワーク内で独立に顔画像のセマンティクスとスタイル編集を制御可能にする。
そこで我々は2つの帰納バイアスを含むエンコーダデコーダベースのネットワークアーキテクチャ(S^2$-Flow)を設計する。
様々な意味的・スタイル的な編集を行うことにより,$s^2$-flowの定量的・質的適合性を示す。
関連論文リスト
- An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - ZONE: Zero-Shot Instruction-Guided Local Editing [56.56213730578504]
ゼロショットインストラクションを用いた局所画像編集手法ZONEを提案する。
InstructPix2Pixを通してユーザが提供する命令から特定の画像編集領域に変換する。
次に,オフザシェルフセグメントモデルから正確な画像層抽出を行う領域IoU方式を提案する。
論文 参考訳(メタデータ) (2023-12-28T02:54:34Z) - Warping the Residuals for Image Editing with StyleGAN [5.733811543584874]
StyleGANモデルは、意味論的に解釈可能な潜在組織を通して編集機能を示す。
StyleGANの潜伏空間に画像を反転させる多くの研究が提案されている。
本稿では,高速遅延特徴を抽出し,フロー推定モジュールを含む新しい画像インバージョンアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:24:18Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Make It So: Steering StyleGAN for Any Image Inversion and Editing [16.337519991964367]
StyleGANの歪んだスタイル表現は、潜伏変数を操作することで強力な画像編集を可能にする。
既存のGANインバージョン手法は、編集方向の維持と現実的な結果の獲得に苦慮している。
我々は、一般的な$mathcalW$(遅延スタイル)空間ではなく、$mathcalZ$(ノイズ)空間で動作する新しいGAN逆変換法であるMake It Soを提案する。
論文 参考訳(メタデータ) (2023-04-27T17:59:24Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z) - PIE: Portrait Image Embedding for Semantic Control [82.69061225574774]
本稿では,StyleGANの潜在空間に実際の肖像画を埋め込むための最初のアプローチを提案する。
トレーニング済みのニューラルネットワークであるStyleRigは、3D形態素顔モデルの制御空間をGANの潜在空間にマッピングする。
アイデンティティエネルギー保存用語は、顔の整合性を維持しながら空間的コヒーレントな編集を可能にする。
論文 参考訳(メタデータ) (2020-09-20T17:53:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。