論文の概要: Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2209.14046v1
- Date: Wed, 28 Sep 2022 12:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 17:23:16.998626
- Title: Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation
- Title(参考訳): adma-gan: テキストから画像への生成のための属性駆動メモリ拡張gan
- Authors: Xintian Wu, Hanbin Zhao, Liangli Zheng, Shouhong Ding, Xi Li
- Abstract要約: テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。
属性情報を補完する有効なテキスト表現法を提案する。
- 参考スコア(独自算出の注目度): 18.36261166580862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a challenging task, text-to-image generation aims to generate
photo-realistic and semantically consistent images according to the given text
descriptions. Existing methods mainly extract the text information from only
one sentence to represent an image and the text representation effects the
quality of the generated image well. However, directly utilizing the limited
information in one sentence misses some key attribute descriptions, which are
the crucial factors to describe an image accurately. To alleviate the above
problem, we propose an effective text representation method with the
complements of attribute information. Firstly, we construct an attribute memory
to jointly control the text-to-image generation with sentence input. Secondly,
we explore two update mechanisms, sample-aware and sample-joint mechanisms, to
dynamically optimize a generalized attribute memory. Furthermore, we design an
attribute-sentence-joint conditional generator learning scheme to align the
feature embeddings among multiple representations, which promotes the
cross-modal network training. Experimental results illustrate that the proposed
method obtains substantial performance improvements on both the CUB (FID from
14.81 to 8.57) and COCO (FID from 21.42 to 12.39) datasets.
- Abstract(参考訳): 課題として、テキストから画像への生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックに一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出し、テキスト表現は生成された画像の品質によく影響する。
しかし、1文で限られた情報を直接活用することは、画像を記述する上で重要な要素であるいくつかの重要な属性記述を見逃す。
そこで本稿では,属性情報の補完機能を備えた効果的なテキスト表現手法を提案する。
まず,文入力によるテキスト対画像生成を共同で制御する属性メモリを構築する。
次に,汎用属性メモリを動的に最適化するために,サンプルアウェア機構とサンプルジョイント機構の2つの更新機構を検討した。
さらに,複数表現間の特徴埋め込みを調整し,クロスモーダルネットワークトレーニングを促進する属性-sentence-joint条件生成学習スキームを設計する。
実験の結果,提案手法は,cub (14.81から8.57) とcoco (21.42から12.39) の両方で性能改善が得られた。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Improving Generalization of Image Captioning with Unsupervised Prompt
Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。
GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文 参考訳(メタデータ) (2023-08-05T12:27:01Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Memory-Driven Text-to-Image Generation [126.58244124144827]
本稿では,メモリ駆動型半パラメトリックによるテキスト・ツー・イメージ生成手法を提案する。
非パラメトリック成分は、画像のトレーニングセットから構築された画像特徴のメモリバンクである。
パラメトリック成分は 生成的敵ネットワークです
論文 参考訳(メタデータ) (2022-08-15T06:32:57Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。