Fugu-MT 論文翻訳(概要): Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation

論文の概要: Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation

arxiv url: http://arxiv.org/abs/2209.14046v1
Date: Wed, 28 Sep 2022 12:28:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-29 17:23:16.998626
Title: Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation
Title（参考訳）: adma-gan: テキストから画像への生成のための属性駆動メモリ拡張gan
Authors: Xintian Wu, Hanbin Zhao, Liangli Zheng, Shouhong Ding, Xi Li
Abstract要約: テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。属性情報を補完する有効なテキスト表現法を提案する。
参考スコア（独自算出の注目度）: 18.36261166580862
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As a challenging task, text-to-image generation aims to generate photo-realistic and semantically consistent images according to the given text descriptions. Existing methods mainly extract the text information from only one sentence to represent an image and the text representation effects the quality of the generated image well. However, directly utilizing the limited information in one sentence misses some key attribute descriptions, which are the crucial factors to describe an image accurately. To alleviate the above problem, we propose an effective text representation method with the complements of attribute information. Firstly, we construct an attribute memory to jointly control the text-to-image generation with sentence input. Secondly, we explore two update mechanisms, sample-aware and sample-joint mechanisms, to dynamically optimize a generalized attribute memory. Furthermore, we design an attribute-sentence-joint conditional generator learning scheme to align the feature embeddings among multiple representations, which promotes the cross-modal network training. Experimental results illustrate that the proposed method obtains substantial performance improvements on both the CUB (FID from 14.81 to 8.57) and COCO (FID from 21.42 to 12.39) datasets.
Abstract（参考訳）: 課題として、テキストから画像への生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックに一貫性のある画像を生成することを目的としている。既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出し、テキスト表現は生成された画像の品質によく影響する。しかし、1文で限られた情報を直接活用することは、画像を記述する上で重要な要素であるいくつかの重要な属性記述を見逃す。そこで本稿では,属性情報の補完機能を備えた効果的なテキスト表現手法を提案する。まず,文入力によるテキスト対画像生成を共同で制御する属性メモリを構築する。次に,汎用属性メモリを動的に最適化するために,サンプルアウェア機構とサンプルジョイント機構の2つの更新機構を検討した。さらに,複数表現間の特徴埋め込みを調整し,クロスモーダルネットワークトレーニングを促進する属性-sentence-joint条件生成学習スキームを設計する。実験の結果,提案手法は,cub (14.81から8.57) とcoco (21.42から12.39) の両方で性能改善が得られた。

関連論文リスト

TSAL: Few-shot Text Segmentation Based on Attribute Learning [21.413607725856263]
本稿では,CLIPの事前知識を利用してテキスト属性のセグメンテーションを学習するTSALを提案する。データ依存性を低減し、テキスト検出精度を向上させるため、適応的なプロンプト誘導分岐は効果的な適応的なプロンプトテンプレートを使用する。実験により, 複数テキストセグメンテーションデータセット上でのSOTA性能について, 数ショット設定で検証した。
論文参考訳（メタデータ） (2025-04-15T13:12:42Z)
ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。 ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文参考訳（メタデータ） (2024-08-19T15:27:25Z)
Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文参考訳（メタデータ） (2024-05-07T15:00:11Z)
Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文参考訳（メタデータ） (2023-12-14T12:39:29Z)
Improving Generalization of Image Captioning with Unsupervised Prompt Learning [63.26197177542422]
画像キャプションの一般化(GeneIC)は、アノテーション付きデータを必要とせずに、ターゲットドメインのドメイン固有のプロンプトベクトルを学習する。 GeneICは、学習済みのContrastive Language-Image Pre-Training (CLIP)モデルと視覚的および言語的モダリティを一致させる。
論文参考訳（メタデータ） (2023-08-05T12:27:01Z)
Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。 CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文参考訳（メタデータ） (2022-11-01T05:48:18Z)
Memory-Driven Text-to-Image Generation [126.58244124144827]
本稿では,メモリ駆動型半パラメトリックによるテキスト・ツー・イメージ生成手法を提案する。非パラメトリック成分は、画像のトレーニングセットから構築された画像特徴のメモリバンクである。パラメトリック成分は生成的敵ネットワークです
論文参考訳（メタデータ） (2022-08-15T06:32:57Z)
Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文参考訳（メタデータ） (2022-06-16T07:56:28Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文参考訳（メタデータ） (2021-08-27T07:20:34Z)
Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文参考訳（メタデータ） (2021-04-01T15:48:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。