論文の概要: Multi-Tailed, Multi-Headed, Spatial Dynamic Memory refined Text-to-Image
Synthesis
- arxiv url: http://arxiv.org/abs/2110.08143v1
- Date: Fri, 15 Oct 2021 15:16:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:52:51.767399
- Title: Multi-Tailed, Multi-Headed, Spatial Dynamic Memory refined Text-to-Image
Synthesis
- Title(参考訳): マルチテール・マルチヘッド・空間動的メモリによるテキスト画像合成
- Authors: Amrit Diggavi Seshadri, Balaraman Ravindran
- Abstract要約: 現在の手法はテキストから画像を多段階的に合成するが、通常、まず粗い初期画像を生成し、その後、後の段階で画像の詳細を精査する。
提案手法は,これらの欠点に対処するための3つの新しいコンポーネントを提案する。
実験結果から,Multi-Tailed Word-level Initial Generation (MSMT-GAN) を用いたマルチヘッド空間動的メモリ画像の高精細化が,CUBおよびCOCOデータセットの先行技術に対して好意的に行われることが示された。
- 参考スコア(独自算出の注目度): 21.673771194165276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing high-quality, realistic images from text-descriptions is a
challenging task, and current methods synthesize images from text in a
multi-stage manner, typically by first generating a rough initial image and
then refining image details at subsequent stages. However, existing methods
that follow this paradigm suffer from three important limitations. Firstly,
they synthesize initial images without attempting to separate image attributes
at a word-level. As a result, object attributes of initial images (that provide
a basis for subsequent refinement) are inherently entangled and ambiguous in
nature. Secondly, by using common text-representations for all regions, current
methods prevent us from interpreting text in fundamentally different ways at
different parts of an image. Different image regions are therefore only allowed
to assimilate the same type of information from text at each refinement stage.
Finally, current methods generate refinement features only once at each
refinement stage and attempt to address all image aspects in a single shot.
This single-shot refinement limits the precision with which each refinement
stage can learn to improve the prior image. Our proposed method introduces
three novel components to address these shortcomings: (1) An initial generation
stage that explicitly generates separate sets of image features for each word
n-gram. (2) A spatial dynamic memory module for refinement of images. (3) An
iterative multi-headed mechanism to make it easier to improve upon multiple
image aspects. Experimental results demonstrate that our Multi-Headed Spatial
Dynamic Memory image refinement with our Multi-Tailed Word-level Initial
Generation (MSMT-GAN) performs favourably against the previous state of the art
on the CUB and COCO datasets.
- Abstract(参考訳): テキスト記述から高品質でリアルなイメージを合成することは難しい課題であり、現在の手法では、まずは粗い初期画像を生成し、その後に画像の詳細を精細化する。
しかし、このパラダイムに従う既存の方法には3つの重要な制限がある。
まず、単語レベルで画像属性を分離しようとせずに最初の画像を合成する。
その結果、初期画像のオブジェクト属性(その後の精細化の基礎となる)は本質的に絡み合っており、本質的に曖昧である。
第2に、すべての領域で共通のテキスト表現を使用することで、現在の方法では、画像の異なる部分において、基本的に異なる方法でテキストを解釈できない。
したがって、異なる画像領域は、改良段階ごとにテキストから同じ種類の情報を同一化できるだけである。
最終的に、現在の手法は、各精錬段階で1回だけ精錬機能を生成し、単一のショットで全ての画像の側面に対処しようとする。
この単発リファインメントは、各リファインメントステージが前の画像を改善するために学習できる精度を制限する。
提案手法では,(1)各単語 n-gram に対して画像特徴を明示的に生成する初期生成段階の3つの新しい要素を導入する。
(2)画像の精細化のための空間動的メモリモジュール。
3) 反復的なマルチヘッド機構により,複数のイメージ面の改善が容易になる。
実験結果から,複数の単語レベル初期生成(msmt-gan)を用いたマルチヘッド空間動的メモリ画像の精度向上が,cubおよびcocoデータセットの先行技術に好適な効果を示した。
関連論文リスト
- HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation [18.36261166580862]
テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。
属性情報を補完する有効なテキスト表現法を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:28:54Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - Fully Context-Aware Image Inpainting with a Learned Semantic Pyramid [102.24539566851809]
画像中の任意の欠落する領域に対して、合理的で現実的なコンテンツを復元することは、重要な課題である。
最近の画像インパインティングモデルは鮮明な視覚的詳細を生成するために大きな進歩を遂げているが、それでもテクスチャのぼやけや構造的歪みにつながる可能性がある。
本研究では,画像中の局所的欠落コンテンツの回復に大きく貢献する,多スケールなセマンティック・セマンティック・ピラミッド・ネットワーク(SPN)を提案する。
論文 参考訳(メタデータ) (2021-12-08T04:33:33Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding [11.985768957782641]
本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
論文 参考訳(メタデータ) (2020-07-02T09:23:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。