論文の概要: Text to Image Generation with Semantic-Spatial Aware GAN
- arxiv url: http://arxiv.org/abs/2104.00567v1
- Date: Thu, 1 Apr 2021 15:48:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:50:46.584214
- Title: Text to Image Generation with Semantic-Spatial Aware GAN
- Title(参考訳): 意味空間認識GANを用いたテキストから画像生成
- Authors: Wentong Liao, Kai Hu, Michael Ying Yang, Bodo Rosenhahn
- Abstract要約: テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
- 参考スコア(独自算出の注目度): 41.73685713621705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A text to image generation (T2I) model aims to generate photo-realistic
images which are semantically consistent with the text descriptions. Built upon
the recent advances in generative adversarial networks (GANs), existing T2I
models have made great progress. However, a close inspection of their generated
images reveals two major limitations: (1) The condition batch normalization
methods are applied on the whole image feature maps equally, ignoring the local
semantics; (2) The text encoder is fixed during training, which should be
trained with the image generator jointly to learn better text representations
for image generation. To address these limitations, we propose a novel
framework Semantic-Spatial Aware GAN, which is trained in an end-to-end fashion
so that the text encoder can exploit better text information. Concretely, we
introduce a novel Semantic-Spatial Aware Convolution Network, which (1) learns
semantic-adaptive transformation conditioned on text to effectively fuse text
features and image features, and (2) learns a mask map in a weakly-supervised
way that depends on the current text-image fusion process in order to guide the
transformation spatially. Experiments on the challenging COCO and CUB bird
datasets demonstrate the advantage of our method over the recent
state-of-the-art approaches, regarding both visual fidelity and alignment with
input text description.
- Abstract(参考訳): text to image generation(t2i)モデルは、テキスト記述と意味的に一致するフォトリアリスティックな画像を生成することを目的としている。
GAN(Generative Adversarial Network)の最近の進歩に基づき、既存のT2Iモデルは大きな進歩を遂げた。
しかし, 生成した画像の綿密な検査では, 1) 条件バッチ正規化法は局所的意味論を無視した画像特徴マップ全体に等しく適用され, 2) テキストエンコーダは訓練中に固定され, 画像生成のためのより良いテキスト表現を学ぶために, 画像生成者と共同で訓練すべきである。
これらの制約に対処するために,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
具体的には,(1)テキストに条件づけられた意味適応変換を学習し,テキストの特徴と画像特徴を効果的に融合し,(2)現在のテキスト・イメージ融合プロセスに依存する弱教師付き方法でマスクマップを学習し,空間的に変換を導く,新たな意味空間認識畳み込みネットワークを提案する。
難解なCOCOとCUBの鳥のデータセットに関する実験は、最近の最先端のアプローチに対して、視覚的忠実度と入力テキスト記述との整合性の両方に関して、我々の手法の利点を実証している。
関連論文リスト
- Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Language-Oriented Semantic Latent Representation for Image Transmission [38.62941652189033]
意味コミュニケーション(SC)の新しいパラダイムは、ビットの背後にある意味の提供に焦点を当てている。
データ・テキスト・モデルの最近の進歩は言語指向のSCを促進する。
テキストと圧縮画像の埋め込みの両方を通信する新しいSCフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T10:41:31Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - DT2I: Dense Text-to-Image Generation from Region Descriptions [3.883984493622102]
我々は、より直感的な画像生成への道を開くための新しいタスクとして、高密度テキスト・ツー・イメージ(DT2I)合成を導入する。
また,意味豊かな領域記述から画像を生成する新しい手法であるDTC-GANを提案する。
論文 参考訳(メタデータ) (2022-04-05T07:57:11Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。