論文の概要: Style Transformer for Image Inversion and Editing
- arxiv url: http://arxiv.org/abs/2203.07932v1
- Date: Tue, 15 Mar 2022 14:16:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:38:29.740508
- Title: Style Transformer for Image Inversion and Editing
- Title(参考訳): 画像インバージョンと編集のためのスタイル変換器
- Authors: Xueqi Hu, Qiusheng Huang, Zhengyi Shi, Siyuan Li, Changxin Gao, Li
Sun, Qingli Li
- Abstract要約: 既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
- 参考スコア(独自算出の注目度): 35.45674653596084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing GAN inversion methods fail to provide latent codes for reliable
reconstruction and flexible editing simultaneously. This paper presents a
transformer-based image inversion and editing model for pretrained StyleGAN
which is not only with less distortions, but also of high quality and
flexibility for editing. The proposed model employs a CNN encoder to provide
multi-scale image features as keys and values. Meanwhile it regards the style
code to be determined for different layers of the generator as queries. It
first initializes query tokens as learnable parameters and maps them into W+
space. Then the multi-stage alternate self- and cross-attention are utilized,
updating queries with the purpose of inverting the input by the generator.
Moreover, based on the inverted code, we investigate the reference- and
label-based attribute editing through a pretrained latent classifier, and
achieve flexible image-to-image translation with high quality results.
Extensive experiments are carried out, showing better performances on both
inversion and editing tasks within StyleGAN.
- Abstract(参考訳): 既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,プリトレーニングされたスタイルガンのトランスベース画像インバージョンおよび編集モデルを提案する。
提案モデルはcnnエンコーダを使用して,キーと値として多スケール画像機能を提供する。
一方、ジェネレータの異なるレイヤで決定されるスタイルコードをクエリとして扱う。
まずクエリトークンを学習可能なパラメータとして初期化し、w+スペースにマップする。
次に、多段階的な自己および相互アテンションを利用して、ジェネレータによる入力を反転させる目的でクエリを更新する。
さらに,この逆コードに基づいて,事前学習された潜在性分類器による参照属性とラベル属性の編集を行い,高品質な画像から画像への柔軟な翻訳を実現する。
大規模な実験を行い、StyleGAN内の反転タスクと編集タスクの両方でより良いパフォーマンスを示す。
関連論文リスト
- HyperEditor: Achieving Both Authenticity and Cross-Domain Capability in
Image Editing via Hypernetworks [5.9189325968909365]
本稿では,ハイパーネットワークによって生成される重み係数を用いて,事前学習したStyleGAN2ジェネレータの重み付けを行うHyperEditorという画像編集手法を提案する。
CLIPのクロスモーダルな画像テキストセマンティックアライメントによってガイドされたこの革新的なアプローチは、真の属性編集とクロスドメインスタイルの転送を同時に実現できる。
論文 参考訳(メタデータ) (2023-12-21T02:39:53Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - Null-text Inversion for Editing Real Images using Guided Diffusion
Models [44.27570654402436]
精度の高い逆変換手法を導入し、直感的なテキストベースの画像修正を容易にする。
我々のNull-textインバージョンは、公開されている安定拡散モデルに基づいて、様々な画像に対して広範囲に評価し、迅速な編集を行う。
論文 参考訳(メタデータ) (2022-11-17T18:58:14Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。