論文の概要: StyleAlign: Analysis and Applications of Aligned StyleGAN Models
- arxiv url: http://arxiv.org/abs/2110.11323v1
- Date: Thu, 21 Oct 2021 17:55:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 16:16:49.480144
- Title: StyleAlign: Analysis and Applications of Aligned StyleGAN Models
- Title(参考訳): stylealign:アライメントスタイルガンモデルの解析と応用
- Authors: Zongze Wu, Yotam Nitzan, Eli Shechtman, Dani Lischinski
- Abstract要約: 同じアーキテクチャを共有する場合、2つのモデルをアライメントとして参照し、その1つ(子)は、別のドメインに微調整することで、もう一方(親)から取得します。
いくつかの作品は、画像から画像への変換を行うために、アライメントされたStyleGANモデルのいくつかの基本的な特性を既に利用している。
- 参考スコア(独自算出の注目度): 37.55451425001427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we perform an in-depth study of the properties and
applications of aligned generative models. We refer to two models as aligned if
they share the same architecture, and one of them (the child) is obtained from
the other (the parent) via fine-tuning to another domain, a common practice in
transfer learning. Several works already utilize some basic properties of
aligned StyleGAN models to perform image-to-image translation. Here, we perform
the first detailed exploration of model alignment, also focusing on StyleGAN.
First, we empirically analyze aligned models and provide answers to important
questions regarding their nature. In particular, we find that the child model's
latent spaces are semantically aligned with those of the parent, inheriting
incredibly rich semantics, even for distant data domains such as human faces
and churches. Second, equipped with this better understanding, we leverage
aligned models to solve a diverse set of tasks. In addition to image
translation, we demonstrate fully automatic cross-domain image morphing. We
further show that zero-shot vision tasks may be performed in the child domain,
while relying exclusively on supervision in the parent domain. We demonstrate
qualitatively and quantitatively that our approach yields state-of-the-art
results, while requiring only simple fine-tuning and inversion.
- Abstract(参考訳): 本稿では,アライメント生成モデルの特性と応用について,詳細な研究を行う。
2つのモデルが同じアーキテクチャを共有している場合、その1つのモデル(子ども)は、別のドメインに微調整することで、もう一方(親)から取得される。
いくつかの作品は、既にアライメントされたスタイルガンモデルの基本的な特性を利用して画像から画像への翻訳を行っている。
ここでは、モデルアライメントに関する最初の詳細な調査を行い、StyleGANにも焦点を当てる。
まず,協調したモデルを経験的に分析し,その性質に関する重要な質問に答える。
特に、子モデルの潜伏空間は、人間の顔や教会のような遠いデータドメインであっても、非常にリッチなセマンティクスを継承し、親の空間と意味的に一致していることがわかりました。
第二に、このより良い理解を生かして、さまざまなタスクの集合を解決するために整列モデルを活用します。
画像変換に加えて,完全自動クロスドメイン画像モーフィングを示す。
さらに、ゼロショットビジョンタスクは、親ドメインの監督にのみ依存しながら、子ドメインで実行される可能性があることを示す。
我々は,単純な微調整と反転のみを必要とするが,そのアプローチが最先端の結果をもたらすことを質的かつ定量的に示す。
関連論文リスト
- Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。
本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。
解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Fuse and Attend: Generalized Embedding Learning for Art and Sketches [6.375982344506753]
本稿では,様々な領域にまたがる一般化を目的とした新しい埋め込み学習手法を提案する。
PACS(Photo, Art painting, Cartoon, Sketch)データセット上で,Domainフレームワークを用いた手法の有効性を示す。
論文 参考訳(メタデータ) (2022-08-20T14:44:11Z) - Grounding Visual Representations with Texts for Domain Generalization [9.554646174100123]
相互モダリティの監督は、ドメイン不変の視覚表現の接地に成功することができる。
提案手法は,5つのマルチドメインデータセットの平均性能を1位に評価する。
論文 参考訳(メタデータ) (2022-07-21T03:43:38Z) - Adversarial Style Augmentation for Domain Generalized Urban-Scene
Segmentation [120.96012935286913]
そこで本研究では,学習中にハードなスタイリング画像を生成可能な,新たな対向型拡張手法を提案する。
2つの合成から実のセマンティックセグメンテーションベンチマークの実験により、AdvStyleは目に見えない実領域におけるモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2022-07-11T14:01:25Z) - Polymorphic-GAN: Generating Aligned Samples across Multiple Domains with
Learned Morph Maps [94.10535575563092]
本稿では,複数の関連ドメインから一貫した画像サンプルを同時に生成できる生成逆ネットワークを提案する。
各ドメインにまたがる共有特徴を学習するポリモルフィックGANと、各ドメインに応じて共有特徴を共有化するためのドメインごとのモルフィック層を提案する。
論文 参考訳(メタデータ) (2022-06-06T21:03:02Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Boosting Image Outpainting with Semantic Layout Prediction [18.819765707811904]
我々は、画像ドメインの代わりにセマンティックセグメンテーションドメイン内の領域を拡張するために、GANを訓練する。
別のGANモデルは、拡張されたセマンティックレイアウトに基づいて実際の画像を合成するように訓練されている。
我々のアプローチは意味的な手がかりをより容易に扱えるので、複雑なシナリオではよりうまく機能します。
論文 参考訳(メタデータ) (2021-10-18T13:09:31Z) - Variational Interaction Information Maximization for Cross-domain
Disentanglement [34.08140408283391]
ドメイン間の絡み合いは、ドメイン不変表現とドメイン固有表現に分割された表現の学習の問題である。
複数の情報制約の共用目的として,ドメイン不変表現とドメイン固有表現の同時学習を行った。
ゼロショットスケッチに基づく画像検索タスクにおいて,本モデルが最新性能を達成することを示した。
論文 参考訳(メタデータ) (2020-12-08T07:11:35Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。