論文の概要: Recurrent Affine Transformation for Text-to-image Synthesis
- arxiv url: http://arxiv.org/abs/2204.10482v1
- Date: Fri, 22 Apr 2022 03:49:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 00:07:50.328463
- Title: Recurrent Affine Transformation for Text-to-image Synthesis
- Title(参考訳): テキスト・画像合成のための繰り返しアフィン変換
- Authors: Senmao Ye, Fei Liu, Minkui Tan
- Abstract要約: 既存の方法は通常、適切なテキスト情報を分離された融合ブロックで合成プロセスに適応的に融合する。
本稿では、全ての融合ブロックをリカレントニューラルネットワークに接続し、長期的依存をモデル化する、ジェネレーティブ・アドリラル・ネットワークのためのリカレントアフィン変換(RAT)を提案する。
テキスト記述は、一致する画像領域を認識して、より関連性の高い画像コンテンツを合成するためにジェネレータを監督する。
- 参考スコア(独自算出の注目度): 5.256132101498471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image synthesis aims to generate natural images conditioned on text
descriptions. The main difficulty of this task lies in effectively fusing text
information into the image synthesis process. Existing methods usually
adaptively fuse suitable text information into the synthesis process with
multiple isolated fusion blocks (e.g., Conditional
Batch Normalization and Instance Normalization). However, isolated fusion
blocks not only conflict with each other but also increase the difficulty of
training (see first page of the supplementary). To address these issues, we
propose a Recurrent Affine Transformation (RAT) for Generative Adversarial
Networks that connects all the fusion blocks with a recurrent neural network to
model their long-term dependency. Besides, to improve semantic consistency
between texts and synthesized images, we incorporate a spatial attention model
in the discriminator. Being aware of matching image regions, text descriptions
supervise the generator to synthesize more relevant image contents. Extensive
experiments on the CUB, Oxford-102 and COCO datasets demonstrate the
superiority of the proposed model in comparison to state-of-the-art models
\footnote{https://github.com/senmaoy/Recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git}
- Abstract(参考訳): テキストから画像への合成は、テキスト記述に基づいて自然画像を生成することを目的としている。
この課題の主な難点は、テキスト情報を画像合成プロセスに効果的に融合することである。
既存の手法は通常、適切なテキスト情報を複数の独立した融合ブロック(例えば条件付きバッチ正規化とインスタンス正規化)で合成プロセスに適応的に融合する。
しかし、孤立した核融合ブロックは互いに衝突するだけでなく、訓練の難しさも増す(補足の第一ページ参照)。
これらの問題に対処するために,我々は,すべての融合ブロックをリカレントニューラルネットワークと接続し,その長期依存をモデル化する生成的逆向ネットワークのためのリカレントアフィン変換(rat)を提案する。
さらに,テキストと合成画像間の意味的一貫性を向上させるために,空間的注意モデルを識別器に組み込む。
画像領域の一致を認識したテキスト記述は、ジェネレータを監督し、より関連性の高い画像コンテンツを合成する。
CUB, Oxford-102 および COCO データセットの大規模な実験は、最先端のモデルである \footnote{https://github.com/senmaoy/recurrent-Affine-Transformation-for-Text-to-image-Synthesis.git} と比較して提案モデルが優れていることを示している。
関連論文リスト
- Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale
Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。
従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文 参考訳(メタデータ) (2023-01-23T16:05:45Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - ImageBART: Bidirectional Context with Multinomial Diffusion for
Autoregressive Image Synthesis [15.006676130258372]
自己回帰モデルは、以前に合成された画像パッチを上または左にのみ参加することで、コンテキストを線形1次元順序で組み込む。
自己回帰的定式化と多項拡散過程を組み合わせたコンテキストの粗大な階層構造を提案する。
当社のアプローチは、ローカルな画像編集を行うために、制限のない、ユーザが提供するマスクを考慮に入れることができる。
論文 参考訳(メタデータ) (2021-08-19T17:50:07Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。