論文の概要: Gradient Adjusting Networks for Domain Inversion
- arxiv url: http://arxiv.org/abs/2302.11413v1
- Date: Wed, 22 Feb 2023 14:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:53:54.813800
- Title: Gradient Adjusting Networks for Domain Inversion
- Title(参考訳): ドメイン反転のための勾配調整ネットワーク
- Authors: Erez Sheffi, Michael Rotman, Lior Wolf
- Abstract要約: StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
- 参考スコア(独自算出の注目度): 82.72289618025084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: StyleGAN2 was demonstrated to be a powerful image generation engine that
supports semantic editing. However, in order to manipulate a real-world image,
one first needs to be able to retrieve its corresponding latent representation
in StyleGAN's latent space that is decoded to an image as close as possible to
the desired image. For many real-world images, a latent representation does not
exist, which necessitates the tuning of the generator network. We present a
per-image optimization method that tunes a StyleGAN2 generator such that it
achieves a local edit to the generator's weights, resulting in almost perfect
inversion, while still allowing image editing, by keeping the rest of the
mapping between an input latent representation tensor and an output image
relatively intact. The method is based on a one-shot training of a set of
shallow update networks (aka. Gradient Modification Modules) that modify the
layers of the generator. After training the Gradient Modification Modules, a
modified generator is obtained by a single application of these networks to the
original parameters, and the previous editing capabilities of the generator are
maintained. Our experiments show a sizable gap in performance over the current
state of the art in this very active domain. Our code is available at
\url{https://github.com/sheffier/gani}.
- Abstract(参考訳): StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
しかし、実世界像を操作するためには、まず、所望の画像に可能な限り近い画像にデコードされるstyleganの潜在空間において、対応する潜在表現を検索する必要がある。
多くの実世界の画像では、潜在表現は存在せず、生成ネットワークのチューニングが必要となる。
入力潜時表現テンソルと出力画像とのマッピングを比較的無傷に保ちながら、画像の編集をほぼ完璧に行うことができ、かつ、画像の編集もほぼ完全に行えるように、StyleGAN2ジェネレータをチューニングする画像ごとの最適化手法を提案する。
この方法は、ジェネレータの層を変更する一連の浅い更新ネットワーク(Gradient Modification Modules)のワンショットトレーニングに基づいている。
勾配修正モジュールをトレーニングした後、これらのネットワークの1つのアプリケーションから元のパラメータに修正されたジェネレータを取得し、ジェネレータの以前の編集機能を維持する。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
私たちのコードは \url{https://github.com/sheffier/gani} で利用可能です。
関連論文リスト
- HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks [5.9189325968909365]
本稿では,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、真の属性編集とクロスドメインスタイルの転送を同時に実現できる。
論文 参考訳(メタデータ) (2023-12-21T02:39:53Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Style Transformer for Image Inversion and Editing [35.45674653596084]
既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
論文 参考訳(メタデータ) (2022-03-15T14:16:57Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Pivotal Tuning for Latent-based Editing of Real Images [40.22151052441958]
事前訓練されたStyleGANの生成力を利用する高度な顔編集技術が提案されている。
このような方法で画像の編集を成功させるためには、最初に訓練済みのジェネレータのドメインに画像を投影(あるいは反転)する必要がある。
これは、ジェネレータの領域外にある顔に対して、ID保存の顔潜時空間編集を適用することは依然として困難であることを意味する。
論文 参考訳(メタデータ) (2021-06-10T13:47:59Z) - Unsupervised Image Transformation Learning via Generative Adversarial
Networks [40.84518581293321]
GAN(Generative Adversarial Networks)を用いた画像集合から基底変換を学習して画像変換問題を研究する。
本稿では,生成元と識別器が共有する変換空間に画像を投影する,教師なし学習フレームワークTrGANを提案する。
論文 参考訳(メタデータ) (2021-03-13T17:08:19Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z) - Exploiting Deep Generative Prior for Versatile Image Restoration and
Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。
深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文 参考訳(メタデータ) (2020-03-30T17:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。