論文の概要: WarpedGANSpace: Finding non-linear RBF paths in GAN latent space
- arxiv url: http://arxiv.org/abs/2109.13357v1
- Date: Mon, 27 Sep 2021 21:29:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:46:37.813528
- Title: WarpedGANSpace: Finding non-linear RBF paths in GAN latent space
- Title(参考訳): WarpedGANSpace: GAN潜在空間における非線形RBF経路の探索
- Authors: Christos Tzelepis, Georgios Tzimiropoulos, and Ioannis Patras
- Abstract要約: この研究は、事前訓練されたGANの潜在空間における解釈可能な経路を、教師なしの方法で発見する問題に対処する。
我々は、RBFベースの潜時空間ワープ関数の集合によってパラメトリズされた潜時空間上の非線形ワープを学習する。
本手法の特殊な場合として線形経路を導出できることを示すとともに, 遅延空間における非線形経路が画像空間におけるより急勾配, ゆがみ, 解釈可能な変化をもたらすことを実験的に示す。
- 参考スコア(独自算出の注目度): 44.7091944340362
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This work addresses the problem of discovering, in an unsupervised manner,
interpretable paths in the latent space of pretrained GANs, so as to provide an
intuitive and easy way of controlling the underlying generative factors. In
doing so, it addresses some of the limitations of the state-of-the-art works,
namely, a) that they discover directions that are independent of the latent
code, i.e., paths that are linear, and b) that their evaluation relies either
on visual inspection or on laborious human labeling. More specifically, we
propose to learn non-linear warpings on the latent space, each one parametrized
by a set of RBF-based latent space warping functions, and where each warping
gives rise to a family of non-linear paths via the gradient of the function.
Building on the work of Voynov and Babenko, that discovers linear paths, we
optimize the trainable parameters of the set of RBFs, so as that images that
are generated by codes along different paths, are easily distinguishable by a
discriminator network. This leads to easily distinguishable image
transformations, such as pose and facial expressions in facial images. We show
that linear paths can be derived as a special case of our method, and show
experimentally that non-linear paths in the latent space lead to steeper, more
disentangled and interpretable changes in the image space than in state-of-the
art methods, both qualitatively and quantitatively. We make the code and the
pretrained models publicly available at:
https://github.com/chi0tzp/WarpedGANSpace.
- Abstract(参考訳): この研究は、教師なしの方法で、事前訓練されたGANの潜在空間における解釈可能な経路を発見し、基礎となる生成因子を制御する直感的で簡単な方法を提供する。
そうすることで、最先端作品の制限、すなわち、いくつかの問題に対処できる。
a) 潜在コード、すなわち線形な経路から独立した方向を見つけること
b) その評価が視覚検査又は人的ラベリングに依存していること。
より具体的には、それぞれがrbfベースの潜時空間ウォーピング関数のセットによってパラメータ化され、各ウォーピングが関数の勾配を介して非線形経路の族を生じさせる、潜時空間上の非線形ウォーピングを学ぶことを提案する。
線形経路を探索する Voynov と Babenko の作業に基づいて,RBF の集合のトレーニング可能なパラメータを最適化し,異なる経路に沿ってコードによって生成された画像が識別ネットワークによって容易に識別できるようにする。
これにより、顔画像のポーズや表情など、容易に区別できる画像変換が実現される。
本手法の特別な場合として線形経路を導出できることを示すとともに, 潜在空間における非線形経路が, 定性的, 定量的に, 画像空間の傾き, 乱れ, 解釈可能な変化をもたらすことを実験的に示す。
コードとトレーニング済みのモデルを、https://github.com/chi0tzp/WarpedGANSpace.comで公開しています。
関連論文リスト
- TraDiffusion: Trajectory-Based Training-Free Image Generation [85.39724878576584]
そこで我々は,TraDiffusion(トラディフュージョン)と呼ばれる,訓練のないトラジェクトリベースの制御可能なT2Iアプローチを提案する。
この手法により、マウスの軌跡を通した画像生成を無駄にガイドすることができる。
論文 参考訳(メタデータ) (2024-08-19T07:01:43Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - ContraCLIP: Interpretable GAN generation driven by pairs of contrasting
sentences [45.06326873752593]
事前学習されたGANの潜在空間における非線形解釈パスをモデルに依存しない方法で発見する。
視覚言語埋め込み空間において、所望の経路に沿って変化を起こす経路を探索する目的を定義することにより、基礎となる生成因子を直感的に制御する方法を提供する。
論文 参考訳(メタデータ) (2022-06-05T06:13:42Z) - Rayleigh EigenDirections (REDs): GAN latent space traversals for
multidimensional features [20.11085769303415]
本稿では,深部生成モデルの潜在空間における経路を求める手法を提案する。
領域内の顔の同一性や画素などの画像の多次元的特徴を操作できる。
我々の研究は、多くの機会が潜在空間の幾何学と意味論の局所的解析にかかっていることを示唆している。
論文 参考訳(メタデータ) (2022-01-25T16:11:33Z) - Latent Transformations via NeuralODEs for GAN-based Image Editing [25.272389610447856]
トレーニング可能なNeural ODEのフローとして実現された非線形潜時符号操作は、多くの実用的な非顔画像領域にとって有益であることを示す。
特に、既知の属性を持つ多数のデータセットを調査し、ある属性操作が線形シフトのみで取得することが困難であることを実証する。
論文 参考訳(メタデータ) (2021-11-29T18:59:54Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - LARGE: Latent-Based Regression through GAN Semantics [42.50535188836529]
本稿では,少数ショットや弱ビジョンを用いた回帰課題の解法を提案する。
提案手法は,幅広い領域にまたがって適用可能であること,複数の遅延方向探索フレームワークを活用すること,そして最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-22T17:55:35Z) - Do Not Escape From the Manifold: Discovering the Local Coordinates on
the Latent Space of GANs [7.443321740418409]
本稿では,GAN(Generative Adversarial Networks)の中間潜伏空間上での局所幾何学的軌道方向を求める手法を提案する。
潜在空間の内在的な間隔によって動機づけられた基礎は、部分ネットワークの微分の低ランク近似問題を解くことによって発見される。
論文 参考訳(メタデータ) (2021-06-13T10:29:42Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。