論文の概要: Controlling generative models with continuous factors of variations
- arxiv url: http://arxiv.org/abs/2001.10238v1
- Date: Tue, 28 Jan 2020 10:04:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:07:45.009411
- Title: Controlling generative models with continuous factors of variations
- Title(参考訳): 変動の連続因子による生成モデル制御
- Authors: Antoine Plumerault, Herv\'e Le Borgne, C\'eline Hudelot
- Abstract要約: 生成モデルの潜在空間において有意な方向を求める新しい手法を提案する。
提案手法は人間のアノテーションを必要とせず,生成した画像の単純な変換をコードする方向探索に適している。
- 参考スコア(独自算出の注目度): 1.7188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep generative models are able to provide photo-realistic images as
well as visual or textual content embeddings useful to address various tasks of
computer vision and natural language processing. Their usefulness is
nevertheless often limited by the lack of control over the generative process
or the poor understanding of the learned representation. To overcome these
major issues, very recent work has shown the interest of studying the semantics
of the latent space of generative models. In this paper, we propose to advance
on the interpretability of the latent space of generative models by introducing
a new method to find meaningful directions in the latent space of any
generative model along which we can move to control precisely specific
properties of the generated image like the position or scale of the object in
the image. Our method does not require human annotations and is particularly
well suited for the search of directions encoding simple transformations of the
generated image, such as translation, zoom or color variations. We demonstrate
the effectiveness of our method qualitatively and quantitatively, both for GANs
and variational auto-encoders.
- Abstract(参考訳): 最近の深層生成モデルは、コンピュータビジョンや自然言語処理の様々なタスクに対処するのに役立つ視覚またはテキストの埋め込みだけでなく、フォトリアリスティックな画像を提供することができる。
それにもかかわらず、それらの有用性は、生成過程に対する制御の欠如や、学習された表現の理解不足によってしばしば制限される。
これらの主要な問題を克服するために、最近の研究は生成モデルの潜在空間の意味論を研究することに関心を示している。
本稿では, 画像中の物体の位置やスケールなどの生成画像の特徴を正確に制御するために, 生成モデルの潜時空間における有意な方向を求める新しい手法を導入することにより, 生成モデルの潜時空間の解釈可能性を向上させることを提案する。
本手法は,人間のアノテーションを必要とせず,翻訳,ズーム,色変化といった生成画像の簡単な変換を符号化する方向の探索に特に適している。
本稿では,GANと変分自動エンコーダの両方に対して定性的かつ定量的に手法の有効性を示す。
関連論文リスト
- Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts [68.48103545146127]
本稿では拡散潜在空間の教師なし探索のための新しい枠組みを提案する。
我々は、自然言語のプロンプトと画像キャプションを直接利用して、遅延方向をマップする。
本手法は,拡散モデルに符号化された意味的知識をよりスケーラブルで解釈可能な理解を提供する。
論文 参考訳(メタデータ) (2024-10-25T21:44:51Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators [63.85888518950824]
生成モデルを新しいドメインに移行できるテキスト駆動方式を提案する。
自然言語のプロンプトと数分の訓練によって、我々の手法は複数のドメインにまたがってジェネレータを適応させることができることを示す。
論文 参考訳(メタデータ) (2021-08-02T14:46:46Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - Learning a Deep Reinforcement Learning Policy Over the Latent Space of a
Pre-trained GAN for Semantic Age Manipulation [4.306143768014157]
我々は、定義されたアイデンティティ境界の下で、特定の属性に沿って意味操作を行うための条件ポリシーを学習する。
以上の結果から,学習方針は年齢変化を伴う高忠実度画像のサンプルであることがわかった。
論文 参考訳(メタデータ) (2020-11-02T13:15:18Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。