論文の概要: Conditional Image Generation and Manipulation for User-Specified Content
- arxiv url: http://arxiv.org/abs/2005.04909v1
- Date: Mon, 11 May 2020 08:05:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 20:30:25.280388
- Title: Conditional Image Generation and Manipulation for User-Specified Content
- Title(参考訳): ユーザ特定コンテンツの条件付き画像生成と操作
- Authors: David Stap, Maurits Bleeker, Sarah Ibrahimi, Maartje ter Hoeve
- Abstract要約: テキスト・画像生成と操作のための単一パイプラインを提案する。
パイプラインの前半では、テキストで条件付けされたモデルである textStyleGAN を導入しています。
パイプラインの第2部では、事前にトレーニングされたtextStyleGANの重みを利用して、セマンティックな顔画像操作を行います。
- 参考スコア(独自算出の注目度): 6.6081578501076494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, Generative Adversarial Networks (GANs) have improved
steadily towards generating increasingly impressive real-world images. It is
useful to steer the image generation process for purposes such as content
creation. This can be done by conditioning the model on additional information.
However, when conditioning on additional information, there still exists a
large set of images that agree with a particular conditioning. This makes it
unlikely that the generated image is exactly as envisioned by a user, which is
problematic for practical content creation scenarios such as generating facial
composites or stock photos. To solve this problem, we propose a single pipeline
for text-to-image generation and manipulation. In the first part of our
pipeline we introduce textStyleGAN, a model that is conditioned on text. In the
second part of our pipeline we make use of the pre-trained weights of
textStyleGAN to perform semantic facial image manipulation. The approach works
by finding semantic directions in latent space. We show that this method can be
used to manipulate facial images for a wide range of attributes. Finally, we
introduce the CelebTD-HQ dataset, an extension to CelebA-HQ, consisting of
faces and corresponding textual descriptions.
- Abstract(参考訳): 近年,gans(generative adversarial network)は,より印象的な実世界画像生成に向けて着実に改善されている。
コンテンツ作成などの目的のために、画像生成プロセスのステアリングが有用である。
これは、追加情報にモデルを条件付けすることで実現できる。
しかし、追加情報を条件付けする場合、特定の条件付けに一致する画像が多数存在する。
これは、生成された画像がユーザーによって正確に想定されているとは考えにくいため、顔合成画像やストック写真など、実用的なコンテンツ作成シナリオでは問題となる。
そこで本研究では,テキスト・画像生成と操作のための単一パイプラインを提案する。
パイプラインの前半では、テキストで条件付けされたモデルである textStyleGAN を導入しています。
パイプラインの第2部では、textstyleganのトレーニング済みウェイトを使用して、セマンティックな顔画像操作を行っています。
このアプローチは、潜在空間で意味的な方向を見つけることで機能する。
本手法は,様々な属性に対する顔画像の操作に使用できることを示す。
最後に,顔と対応するテキスト記述からなるCelebA-HQの拡張であるCelebTD-HQデータセットを紹介する。
関連論文リスト
- Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - CIGLI: Conditional Image Generation from Language & Image [5.159265382427163]
我々はCIGLI: Conditional Image Generation from Language and Imageを提案する。
テキスト画像生成のようにテキストに基づいて画像を生成する代わりに、このタスクでは、テキスト記述と画像プロンプトから画像を生成する必要がある。
論文 参考訳(メタデータ) (2021-08-20T00:58:42Z) - Semantic Text-to-Face GAN -ST^2FG [0.7919810878571298]
セマンティックテキスト記述から顔画像を生成する新しい手法を提案する。
セキュリティと犯罪の特定のためには、スケッチアーティストのように機能するGANベースのシステムを提供する能力は、信じられないほど有用だろう。
論文 参考訳(メタデータ) (2021-07-22T15:42:25Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z) - StyleGAN2 Distillation for Feed-forward Image Manipulation [5.5080625617632]
StyleGAN2は、現実的な画像を生成する最先端のネットワークである。
本稿では,StyleGAN2の特定の画像操作を,ペア方式で訓練した画像間ネットワークに蒸留する方法を提案する。
論文 参考訳(メタデータ) (2020-03-07T14:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。