論文の概要: Learning a Deep Reinforcement Learning Policy Over the Latent Space of a
Pre-trained GAN for Semantic Age Manipulation
- arxiv url: http://arxiv.org/abs/2011.00954v2
- Date: Wed, 28 Apr 2021 09:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:24:35.051754
- Title: Learning a Deep Reinforcement Learning Policy Over the Latent Space of a
Pre-trained GAN for Semantic Age Manipulation
- Title(参考訳): 意味年齢操作のための事前学習型GANの潜時空間上での深層強化学習政策の学習
- Authors: Kumar Shubham, Gopalakrishnan Venkatesh, Reijul Sachdev, Akshi, Dinesh
Babu Jayagopi, G. Srinivasaraghavan
- Abstract要約: 我々は、定義されたアイデンティティ境界の下で、特定の属性に沿って意味操作を行うための条件ポリシーを学習する。
以上の結果から,学習方針は年齢変化を伴う高忠実度画像のサンプルであることがわかった。
- 参考スコア(独自算出の注目度): 4.306143768014157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a disentangled representation of the latent space has become one of
the most fundamental problems studied in computer vision. Recently, many
Generative Adversarial Networks (GANs) have shown promising results in
generating high fidelity images. However, studies to understand the semantic
layout of the latent space of pre-trained models are still limited. Several
works train conditional GANs to generate faces with required semantic
attributes. Unfortunately, in these attempts, the generated output is often not
as photo-realistic as the unconditional state-of-the-art models. Besides, they
also require large computational resources and specific datasets to generate
high fidelity images. In our work, we have formulated a Markov Decision Process
(MDP) over the latent space of a pre-trained GAN model to learn a conditional
policy for semantic manipulation along specific attributes under defined
identity bounds. Further, we have defined a semantic age manipulation scheme
using a locally linear approximation over the latent space. Results show that
our learned policy samples high fidelity images with required age alterations,
while preserving the identity of the person.
- Abstract(参考訳): 潜在空間の非絡み合い表現を学習することは、コンピュータビジョンにおいて研究される最も基本的な問題の一つとなっている。
近年,gans (generative adversarial network) が高忠実度画像の生成に有望な結果を示している。
しかし、事前訓練されたモデルの潜在空間の意味的レイアウトを理解する研究はまだ限られている。
いくつかの作品では条件付きGANを訓練して、必要なセマンティック属性を持つ顔を生成する。
残念ながら、これらの試みでは、生成した出力は非条件の最先端モデルほどフォトリアリスティックではないことが多い。
さらに、高い忠実度画像を生成するために、大きな計算資源と特定のデータセットも必要である。
本研究では,事前学習されたganモデルの潜在空間上でマルコフ決定過程(mdp)を定式化し,特定の属性に沿った意味的操作のための条件付きポリシーを定式化した。
さらに,潜在空間上の局所線形近似を用いた意味年齢操作手法を定義した。
その結果、学習方針は、人物の身元を保ちながら、年齢変化の必要な高忠実度画像をサンプリングすることを示した。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - A 3D GAN for Improved Large-pose Facial Recognition [3.791440300377753]
深層畳み込みニューラルネットワークを用いた顔認識は、顔画像の大きなデータセットの可用性に依存している。
近年の研究では、アイデンティティからポーズを離す方法が不十分であることが示されている。
本研究では,GAN発生器に3次元モーフィラブルモデルを組み込むことにより,野生画像から非線形テクスチャモデルを学習する。
これにより、新しい合成IDの生成と、アイデンティティを損なうことなくポーズ、照明、表現の操作が可能になります。
論文 参考訳(メタデータ) (2020-12-18T22:41:15Z) - Evidential Sparsification of Multimodal Latent Spaces in Conditional
Variational Autoencoders [63.46738617561255]
訓練された条件付き変分オートエンコーダの離散潜時空間をスパース化する問題を考察する。
顕在的理論を用いて、特定の入力条件から直接証拠を受け取る潜在クラスを特定し、そうでないクラスをフィルタリングする。
画像生成や人間の行動予測などの多様なタスクの実験により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-19T01:27:21Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z) - InterFaceGAN: Interpreting the Disentangled Face Representation Learned
by GANs [73.27299786083424]
我々は、最先端のGANモデルによって学習された不整合顔表現を解釈するInterFaceGANというフレームワークを提案する。
まず、GANは潜在空間の線型部分空間で様々な意味学を学ぶ。
次に、異なる意味論間の相関関係について詳細な研究を行い、部分空間射影を通してそれらをよりよく解離させる。
論文 参考訳(メタデータ) (2020-05-18T18:01:22Z) - On Leveraging Pretrained GANs for Generation with Limited Data [83.32972353800633]
生成的敵ネットワーク(GAN)は、しばしば(人間によって)実際の画像と区別できない非常に現実的な画像を生成することができる。
このように生成されたほとんどの画像はトレーニングデータセットには含まれておらず、GAN生成データでトレーニングセットを増強する可能性を示唆している。
我々は、大規模なデータセットで事前訓練された既存のGANモデルを活用し、トランスファーラーニングの概念に従って追加の知識を導入する。
限られたデータを用いた生成における提案手法の有効性を示すため, 広範囲な実験を行った。
論文 参考訳(メタデータ) (2020-02-26T21:53:36Z) - Controlling generative models with continuous factors of variations [1.7188280334580197]
生成モデルの潜在空間において有意な方向を求める新しい手法を提案する。
提案手法は人間のアノテーションを必要とせず,生成した画像の単純な変換をコードする方向探索に適している。
論文 参考訳(メタデータ) (2020-01-28T10:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。