論文の概要: Using latent space regression to analyze and leverage compositionality
in GANs
- arxiv url: http://arxiv.org/abs/2103.10426v1
- Date: Thu, 18 Mar 2021 17:58:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-19 14:47:35.314674
- Title: Using latent space regression to analyze and leverage compositionality
in GANs
- Title(参考訳): 潜時空間回帰を用いたGANの構成性の解析と利用
- Authors: Lucy Chai, Jonas Wulff, Phillip Isola
- Abstract要約: GANの組成特性を理解するためのプローブとして潜在空間への回帰を研究する。
reressorとプリトレーニングされたジェネレータを組み合わせることで、強いイメージを事前に提供し、複合イメージを作成できることが分かりました。
回帰アプローチは,潜在空間での直接編集と比較して,個々の画像部分の局所的な編集を可能にする。
- 参考スコア(独自算出の注目度): 33.381584322411626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, Generative Adversarial Networks have become ubiquitous in
both research and public perception, but how GANs convert an unstructured
latent code to a high quality output is still an open question. In this work,
we investigate regression into the latent space as a probe to understand the
compositional properties of GANs. We find that combining the regressor and a
pretrained generator provides a strong image prior, allowing us to create
composite images from a collage of random image parts at inference time while
maintaining global consistency. To compare compositional properties across
different generators, we measure the trade-offs between reconstruction of the
unrealistic input and image quality of the regenerated samples. We find that
the regression approach enables more localized editing of individual image
parts compared to direct editing in the latent space, and we conduct
experiments to quantify this independence effect. Our method is agnostic to the
semantics of edits, and does not require labels or predefined concepts during
training. Beyond image composition, our method extends to a number of related
applications, such as image inpainting or example-based image editing, which we
demonstrate on several GANs and datasets, and because it uses only a single
forward pass, it can operate in real-time. Code is available on our project
page: https://chail.github.io/latent-composition/.
- Abstract(参考訳): 近年、ジェネレーティブ・アドバイザリアル・ネットワークは研究と公衆の認識の両方で広く普及しているが、GANが非構造化の潜在コードを高品質な出力に変換する方法はまだ未解決の問題である。
本研究では, GANの組成特性を理解するためのプローブとして, 潜時空間への回帰について検討する。
回帰器と事前訓練されたジェネレータを組み合わせることで、より強い画像が得られ、グローバルな一貫性を維持しつつ、推論時にランダムな画像部品のコラージュから合成画像を作成することができる。
異なる生成元間の合成特性を比較するために,非現実的な入力の再構成と再生サンプルの画質とのトレードオフを計測した。
回帰法により,各画像部分の局所的な編集が,遅延空間の直接編集よりも可能となり,この独立性効果を定量的に評価する実験を行う。
本手法は編集のセマンティクスに依存せず,学習中にラベルや事前定義された概念を必要としない。
画像合成以外にも,画像インペインティングやサンプルベースの画像編集など,関連するアプリケーションにも拡張し,複数のganやデータセットでデモを行い,単一のフォワードパスのみを使用するため,リアルタイムに動作可能とした。
コードはプロジェクトページで利用可能です。 https://chail.github.io/latent-composition/。
関連論文リスト
- MULAN: A Multi Layer Annotated Dataset for Controllable Text-to-Image Generation [54.64194935409982]
44K MUlti-Layer-wise RGBA 分解からなる新しいデータセット MuLAn を紹介する。
MuLAnは、高品質な画像のインスタンス分解と空間情報を提供する最初のフォトリアリスティックなリソースである。
我々は,新しい生成・編集技術,特にレイヤワイドソリューションの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-04-03T14:58:00Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Rethinking Polyp Segmentation from an Out-of-Distribution Perspective [37.1338930936671]
マスク付き自己エンコーダ(再建作業で訓練された自己教師型視覚トランスフォーマー)を応用して,分布内表現を学習する。
種々の異常サンプルの潜伏分布と健常サンプルの統計値とを一致させるため,特徴空間の標準化を図り,アウト・オブ・ディストリビューションの再構築と推論を行った。
6つのベンチマークによる実験結果から,我々のモデルはセグメンテーション性能とデータセット間の一般化に優れていた。
論文 参考訳(メタデータ) (2023-06-13T14:13:16Z) - In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing [28.790900756506833]
3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。
GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。
我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z) - Editing Out-of-domain GAN Inversion via Differential Activations [56.62964029959131]
本稿では,構成分解パラダイムを用いて,ドメイン外反転問題に対処する新しいGAN事前編集フレームワークを提案する。
生成されたDiff-CAMマスクの助けを借りて、粗い再構成を直感的に元の画像と編集された画像で合成することができる。
また, 分解段階において, 粗い再構成から最終微編集画像を切り離すための, GAN 以前のデゴーストネットワークを提示する。
論文 参考訳(メタデータ) (2022-07-17T10:34:58Z) - A Method for Evaluating Deep Generative Models of Images via Assessing
the Reproduction of High-order Spatial Context [9.00018232117916]
GAN(Generative Adversarial Network)は、広く使われているDGMの一種である。
本稿では,2つのGANアーキテクチャによって出力される画像の客観的なテストについて述べる。
我々は、訓練されたGANによって生成した画像の特徴を再現できるいくつかのコンテキストモデル(SCM)を設計した。
論文 参考訳(メタデータ) (2021-11-24T15:58:10Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - In-Domain GAN Inversion for Real Image Editing [56.924323432048304]
トレーニング済みのGANジェネレータに実際のイメージを送出する一般的な方法は、遅延コードに戻すことである。
既存の反転法は、通常、画素値によってターゲット画像の再構成にフォーカスするが、反転したコードは元の潜伏空間のセマンティックドメインに着陸しない。
本稿では、入力画像を忠実に再構成し、変換されたコードが編集に意味のある意味を持つようにするためのドメイン内GAN逆変換手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T18:20:18Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。