論文の概要: StylePrompter: All Styles Need Is Attention
- arxiv url: http://arxiv.org/abs/2307.16151v1
- Date: Sun, 30 Jul 2023 07:23:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 17:27:58.077294
- Title: StylePrompter: All Styles Need Is Attention
- Title(参考訳): StylePrompter:すべてのスタイルに注意が必要だ
- Authors: Chenyi Zhuang, Pan Gao, Aljosa Smolic
- Abstract要約: StyleGANは、GAN(Generative Adversarial Networks)の対応する遅延コードに画像を変換することを目的としている。
本稿では,トークンレベルで$mathcalW+$遅延コードを予測するために,階層型視覚トランスフォーマーのバックボーンを革新的に導入する。
そして、StylePrompterがより不整合な$mathcalW+$にあることを証明し、SMARTの可制御性を示す。
- 参考スコア(独自算出の注目度): 21.760753546313403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GAN inversion aims at inverting given images into corresponding latent codes
for Generative Adversarial Networks (GANs), especially StyleGAN where exists a
disentangled latent space that allows attribute-based image manipulation at
latent level. As most inversion methods build upon Convolutional Neural
Networks (CNNs), we transfer a hierarchical vision Transformer backbone
innovatively to predict $\mathcal{W^+}$ latent codes at token level. We further
apply a Style-driven Multi-scale Adaptive Refinement Transformer (SMART) in
$\mathcal{F}$ space to refine the intermediate style features of the generator.
By treating style features as queries to retrieve lost identity information
from the encoder's feature maps, SMART can not only produce high-quality
inverted images but also surprisingly adapt to editing tasks. We then prove
that StylePrompter lies in a more disentangled $\mathcal{W^+}$ and show the
controllability of SMART. Finally, quantitative and qualitative experiments
demonstrate that StylePrompter can achieve desirable performance in balancing
reconstruction quality and editability, and is "smart" enough to fit into most
edits, outperforming other $\mathcal{F}$-involved inversion methods.
- Abstract(参考訳): GANインバージョンは、与えられた画像を対応するGAN(Generative Adversarial Networks)の潜在コードに変換することを目的としている。
ほとんどの逆変換は畳み込みニューラルネットワーク(cnns)に基づいているため、階層的ビジョントランスフォーマーバックボーンを革新的に転送し、トークンレベルで$\mathcal{w^+}$潜在コードを予測する。
さらに,SMART(Style-driven Multi-scale Adaptive Refinement Transformer)を$\mathcal{F}$空間に適用して,ジェネレータの中間スタイルの特徴を洗練させる。
スタイル特徴を、エンコーダの機能マップから失われたアイデンティティ情報を検索するクエリとして扱うことで、SMARTは高品質な反転画像を生成するだけでなく、驚くほど編集作業に適応できる。
そして、StylePrompterがより不整合な$\mathcal{W^+}$にあることを証明し、SMARTの可制御性を示す。
最後に、定量的かつ定性的な実験は、StylePrompterが再構築品質と編集性のバランスをとる上で望ましいパフォーマンスを達成できることを示し、ほとんどの編集に適合するほど「スマート」であり、他の$\mathcal{F}$-involved inversionメソッドよりも優れている。
関連論文リスト
- RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - MoreStyle: Relax Low-frequency Constraint of Fourier-based Image Reconstruction in Generalizable Medical Image Segmentation [53.24011398381715]
MoreStyleと呼ばれるデータ拡張のためのPlug-and-Playモジュールを紹介します。
MoreStyleは、フーリエ空間の低周波制約を緩和することで、イメージスタイルを多様化する。
敵対的学習の助けを借りて、MoreStyleは潜在機能の中で最も複雑なスタイルの組み合わせを指差している。
論文 参考訳(メタデータ) (2024-03-18T11:38:47Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Diverse Inpainting and Editing with GAN Inversion [4.234367850767171]
近年の逆転法では、実画像はStyleGANの潜伏空間に逆転可能であることが示されている。
本稿では,より困難な課題に取り組み,消去された画像をGANの潜伏空間に逆転させ,リアルな塗り絵や編集を行う。
論文 参考訳(メタデータ) (2023-07-27T17:41:36Z) - Intra- & Extra-Source Exemplar-Based Style Synthesis for Improved Domain
Generalization [21.591831983223997]
セマンティックセグメンテーションにおけるドメインの一般化を改善するために,先進的なスタイル合成パイプラインを提案する。
提案手法は,StyleGAN2インバージョンのためのマスク付きノイズエンコーダに基づく。
データシフトの種類によって、ドライブシーンセマンティックセマンティックセグメンテーションの最大12.4%のmIoU改善を実現しています。
論文 参考訳(メタデータ) (2023-07-02T19:56:43Z) - Hierarchical Semantic Regularization of Latent Spaces in StyleGANs [53.98170188547775]
本稿では,階層型意味正規化器(HSR)を提案する。これは,生成元が学習した階層的表現と,事前学習したネットワークが大量のデータに基づいて学習する強力な特徴とを一致させる。
HSRは、ジェネレータ表現の改善だけでなく、潜在スタイル空間の線形性と滑らかさも示しており、より自然なスタイル編集画像の生成につながっている。
論文 参考訳(メタデータ) (2022-08-07T16:23:33Z) - Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and
Editability [76.6724135757723]
GANインバージョンは、事前訓練されたGANの潜在空間に入力イメージを反転させることを目的としている。
GANの逆転の最近の進歩にもかかわらず、歪みと編集性の間のトレードオフを軽減するための課題は残されている。
本稿では、まず入力画像をピボットコードと呼ばれる潜在コードに反転させ、次に、入力画像を正確にピボットコードにマッピングできるようにジェネレータを変更する2段階のアプローチを提案する。
論文 参考訳(メタデータ) (2022-07-19T16:10:16Z) - Overparameterization Improves StyleGAN Inversion [66.8300251627992]
既存の反転アプローチは、有望だが不完全な結果が得られる。
これにより、エンコーダを必要とせずに、ほぼ完璧な画像再構成が得られることを示す。
われわれのアプローチは、画像間の現実的な補間による編集可能性も維持する。
論文 参考訳(メタデータ) (2022-05-12T18:42:43Z) - Style Transformer for Image Inversion and Editing [35.45674653596084]
既存のGANインバージョン手法では、信頼性の高い再構築とフレキシブルな編集のための遅延コードを提供できない。
本稿では,事前学習したStyleGANに対して,トランスフォーマーを用いた画像インバージョンと編集モデルを提案する。
提案モデルでは、CNNエンコーダを用いて、キーと値としてマルチスケールの画像特徴を提供する。
論文 参考訳(メタデータ) (2022-03-15T14:16:57Z) - HyperInverter: Improving StyleGAN Inversion via Hypernetwork [12.173568611144628]
現在のGANインバージョン手法は、以下の3つの要件の少なくとも1つを満たさない:高い再構成品質、編集性、高速推論。
本研究では,全ての要件を同時に満たす新しい2段階戦略を提案する。
我々の手法は完全にエンコーダベースであり、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2021-12-01T18:56:05Z) - Bi-level Feature Alignment for Versatile Image Translation and
Manipulation [88.5915443957795]
GAN(Generative Adversarial Network)は画像翻訳と操作において大きな成功を収めている。
忠実なスタイル制御を備えた高忠実な画像生成は、コンピュータビジョンにおいて依然として大きな課題である。
本稿では,高精度なセマンティック・スタイル・ガイダンスを実現する多機能な画像翻訳・操作フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T05:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。