論文の概要: User-Controllable Latent Transformer for StyleGAN Image Layout Editing
- arxiv url: http://arxiv.org/abs/2208.12408v1
- Date: Fri, 26 Aug 2022 02:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:24:53.735164
- Title: User-Controllable Latent Transformer for StyleGAN Image Layout Editing
- Title(参考訳): StyleGAN画像レイアウト編集のためのユーザ制御可能な潜時変換器
- Authors: Yuki Endo
- Abstract要約: ユーザ入力に応じて遅延コードを操作する対話型フレームワークを提案する。
本フレームワークでは,ユーザが移動を希望する位置でStyleGAN画像に注釈を付け,マウスドラッグによる移動方向の指定を行う。
これらのユーザ入力と初期潜時符号から、潜時変換器は出力潜時符号を推定し、StyleGANジェネレータに送って結果画像を得る。
- 参考スコア(独自算出の注目度): 2.84279467589473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latent space exploration is a technique that discovers interpretable latent
directions and manipulates latent codes to edit various attributes in images
generated by generative adversarial networks (GANs). However, in previous work,
spatial control is limited to simple transformations (e.g., translation and
rotation), and it is laborious to identify appropriate latent directions and
adjust their parameters. In this paper, we tackle the problem of editing the
StyleGAN image layout by annotating the image directly. To do so, we propose an
interactive framework for manipulating latent codes in accordance with the user
inputs. In our framework, the user annotates a StyleGAN image with locations
they want to move or not and specifies a movement direction by mouse dragging.
From these user inputs and initial latent codes, our latent transformer based
on a transformer encoder-decoder architecture estimates the output latent
codes, which are fed to the StyleGAN generator to obtain a result image. To
train our latent transformer, we utilize synthetic data and pseudo-user inputs
generated by off-the-shelf StyleGAN and optical flow models, without manual
supervision. Quantitative and qualitative evaluations demonstrate the
effectiveness of our method over existing methods.
- Abstract(参考訳): 潜時空間探索は、解釈可能な潜時方向を発見し、潜時符号を操作して、生成的敵ネットワーク(GAN)によって生成された画像の様々な属性を編集する技術である。
しかし、従来の研究では、空間制御は単純な変換(例えば、翻訳と回転)に限られており、適切な潜伏方向を特定し、パラメータを調整することは困難である。
本稿では,画像を直接アノテートすることで,StyleGAN画像レイアウトを編集する問題に取り組む。
そこで本研究では,ユーザ入力に応じて潜在コードを操作するための対話型フレームワークを提案する。
本フレームワークでは,ユーザが移動を希望する位置でStyleGAN画像に注釈を付け,マウスドラッグによる移動方向の指定を行う。
これらのユーザ入力と初期潜在コードから、トランスフォーマエンコーダ-デコーダアーキテクチャに基づく潜在トランスフォーマは、出力された潜在コードを推定し、スタイルガン生成器に供給して結果画像を得る。
潜伏変圧器の訓練には,市販のStyleGANと光学フローモデルから生成された合成データと擬似ユーザ入力を手動による監督なしに利用する。
定量的および定性的な評価は,既存手法に対する本手法の有効性を示す。
関連論文リスト
- In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - CTrGAN: Cycle Transformers GAN for Gait Transfer [0.0]
本稿では,目標の自然歩行をうまく生成できる新しいモデルであるCycle Transformers GAN(CTrGAN)を紹介する。
CTrGANのジェネレータはデコーダとエンコーダで構成されており、どちらもトランスフォーマーである。
提案手法は,既存の手法よりも,桁違いにリアルなパーソナライズされた歩行を実現できることを実証する。
論文 参考訳(メタデータ) (2022-06-30T12:53:45Z) - Style Transformer for Image Inversion and Editing [35.45674653596084]
既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
論文 参考訳(メタデータ) (2022-03-15T14:16:57Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z) - Designing an Encoder for StyleGAN Image Manipulation [38.909059126878354]
最先端の無条件発電機であるStyleGANの潜伏空間について検討する。
そこで我々は,StyleGAN潜在空間における歪み依存性トレードオフと歪み知覚トレードオフの存在を同定し,解析する。
本稿では,実画像の編集を容易にするための2つの原理に基づくエンコーダを提案する。
論文 参考訳(メタデータ) (2021-02-04T17:52:38Z) - Navigating the GAN Parameter Space for Semantic Image Editing [35.622710993417456]
Generative Adversarial Networks (GAN) はビジュアル編集に必須のツールである。
本稿では,StyleGAN2のような最先端のモデルで実現可能な視覚効果の範囲を大きく広げる。
論文 参考訳(メタデータ) (2020-11-27T15:38:56Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。