論文の概要: Contrastive Learning for Diverse Disentangled Foreground Generation
- arxiv url: http://arxiv.org/abs/2211.02707v1
- Date: Fri, 4 Nov 2022 18:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 17:13:05.340509
- Title: Contrastive Learning for Diverse Disentangled Foreground Generation
- Title(参考訳): 異方性前景生成のためのコントラスト学習
- Authors: Yuheng Li, Yijun Li, Jingwan Lu, Eli Shechtman, Yong Jae Lee, Krishna
Kumar Singh
- Abstract要約: 本稿では,様々な要因を明示的に制御した多種多様な前景生成手法を提案する。
我々は、暗黙の入力に対して様々なフォアグラウンド結果を生成するために、遅延符号を用いたコントラスト学習を利用する。
実験により,本手法の多様性と生成制御性において,最先端技術よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 67.81298739373766
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new method for diverse foreground generation with explicit
control over various factors. Existing image inpainting based foreground
generation methods often struggle to generate diverse results and rarely allow
users to explicitly control specific factors of variation (e.g., varying the
facial identity or expression for face inpainting results). We leverage
contrastive learning with latent codes to generate diverse foreground results
for the same masked input. Specifically, we define two sets of latent codes,
where one controls a pre-defined factor (``known''), and the other controls the
remaining factors (``unknown''). The sampled latent codes from the two sets
jointly bi-modulate the convolution kernels to guide the generator to
synthesize diverse results. Experiments demonstrate the superiority of our
method over state-of-the-arts in result diversity and generation
controllability.
- Abstract(参考訳): 本稿では,様々な要因を明示的に制御した多種多様な前景生成手法を提案する。
既存の画像インパインティングに基づく前景生成法は、様々な結果を生成するのに苦労することが多く、ユーザが特定の要因を明示的に制御することは滅多にない。
同じマスキング入力に対して様々なフォアグラウンド結果を生成するために、潜在コードとの対比学習を利用する。
具体的には、2つの潜在コードのセットを定義し、1つは予め定義された因子(``known'')を制御し、もう1つは残りの因子(``unknown'')を制御する。
2つの集合からサンプリングされた潜伏符号は、共変核を共変調し、生成器を誘導して様々な結果を合成する。
実験により,本手法の多様性と生成制御性において,最先端技術よりも優れていることを示す。
関連論文リスト
- COMICS: End-to-end Bi-grained Contrastive Learning for Multi-face Forgery Detection [56.7599217711363]
顔偽造認識法は一度に1つの顔しか処理できない。
ほとんどの顔偽造認識法は一度に1つの顔しか処理できない。
マルチフェイスフォージェリ検出のためのエンドツーエンドフレームワークであるCOMICSを提案する。
論文 参考訳(メタデータ) (2023-08-03T03:37:13Z) - Factor Decomposed Generative Adversarial Networks for Text-to-Image
Synthesis [7.658760090153791]
我々はFDGAN(Facter Decomposed Generative Adversa Networks)を提案する。
まず、ノイズベクトルから画像を生成し、次に、ジェネレータと識別器の両方に正規化層に埋め込みます。
実験結果から,テキストと画像の合成において,ノイズと文の埋め込みを分解することで,遅延因子を分解することができることがわかった。
論文 参考訳(メタデータ) (2023-03-24T05:57:53Z) - Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。
本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文 参考訳(メタデータ) (2023-03-16T09:14:26Z) - DivCo: Diverse Conditional Image Synthesis via Contrastive Generative
Adversarial Network [70.12848483302915]
cgans (conditional generative adversarial networks) は、入力条件と潜在コードに基づいて様々な画像をターゲットにしている。
最近のMSGANは、生成した画像の多様性を奨励しようとしたが、画像ペア間の"負の関係"しか考慮しなかった。
潜在空間で指定された生成画像間の「正」と「負」の関係を適切に拘束する新しいDivCoフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-14T11:11:15Z) - RoutingGAN: Routing Age Progression and Regression with Disentangled
Learning [20.579282497730944]
本稿では,GAN(RoutingGAN)をベースとしたドロップアウト型手法を提案する。
まず、入力面から年齢不変の特徴を取り除き、残ったルータによる特徴に徐々に効果を付加する。
2つのベンチマークデータセットの実験結果は、定性的かつ定量的に既存の手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-02-01T02:57:32Z) - Composed Variational Natural Language Generation for Few-shot Intents [118.37774762596123]
現実的な不均衡シナリオにおいて、数ショットのインテントに対するトレーニング例を生成します。
生成した発話の質を評価するために、一般化された複数ショット意図検出タスクについて実験を行った。
提案モデルでは,2つの実世界の意図検出データセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-09-21T17:48:43Z) - Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。
本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。
我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文 参考訳(メタデータ) (2020-07-17T21:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。