論文の概要: DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2108.12141v1
- Date: Fri, 27 Aug 2021 07:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:06:41.589674
- Title: DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis
- Title(参考訳): DAE-GAN:テキスト対画像合成のための動的アスペクト対応GAN
- Authors: Shulan Ruan, Yong Zhang, Kun Zhang, Yanbo Fan, Fan Tang, Qi Liu,
Enhong Chen
- Abstract要約: 本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
- 参考スコア(独自算出の注目度): 55.788772366325105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis refers to generating an image from a given text
description, the key goal of which lies in photo realism and semantic
consistency. Previous methods usually generate an initial image with sentence
embedding and then refine it with fine-grained word embedding. Despite the
significant progress, the 'aspect' information (e.g., red eyes) contained in
the text, referring to several words rather than a word that depicts 'a
particular part or feature of something', is often ignored, which is highly
helpful for synthesizing image details. How to make better utilization of
aspect information in text-to-image synthesis still remains an unresolved
challenge. To address this problem, in this paper, we propose a Dynamic
Aspect-awarE GAN (DAE-GAN) that represents text information comprehensively
from multiple granularities, including sentence-level, word-level, and
aspect-level. Moreover, inspired by human learning behaviors, we develop a
novel Aspect-aware Dynamic Re-drawer (ADR) for image refinement, in which an
Attended Global Refinement (AGR) module and an Aspect-aware Local Refinement
(ALR) module are alternately employed. AGR utilizes word-level embedding to
globally enhance the previously generated image, while ALR dynamically employs
aspect-level embedding to refine image details from a local perspective.
Finally, a corresponding matching loss function is designed to ensure the
text-image semantic consistency at different levels. Extensive experiments on
two well-studied and publicly available datasets (i.e., CUB-200 and COCO)
demonstrate the superiority and rationality of our method.
- Abstract(参考訳): テキストから画像への合成(text-to-image synthesis)とは、与えられたテキスト記述から画像を生成することを指す。
従来の方法では通常、文埋め込みで初期画像を生成し、細粒度な単語埋め込みで洗練する。
著しい進歩にもかかわらず、テキストに含まれる「検査」情報(例えば赤い目)は、「何かの特定の部分または特徴」を描写する単語ではなく、複数の単語を参照しており、しばしば無視されるため、画像の詳細を合成するのに非常に役立つ。
テキストと画像の合成におけるアスペクト情報のより良い利用方法はまだ未解決の課題である。
この問題に対処するために,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
さらに,人間の学習行動に触発されて,参加するグローバルリファインメント(agr)モジュールとアスペクトアウェアローカルリファインメント(alr)モジュールを交互に採用する,新たな画像リファインメントのためのアスペクトアウェア動的リレーダ(adr)を開発した。
AGRは単語レベルの埋め込みを利用して、以前生成されたイメージをグローバルに拡張する一方、ALRはアスペクトレベルの埋め込みを用いて局所的な視点から画像の詳細を洗練する。
最後に、対応するロス関数は、異なるレベルでテキストイメージのセマンティック一貫性を保証するように設計されている。
CUB-200とCOCOの2つのよく研究され、公開されているデータセットに対する大規模な実験は、我々の方法の優越性と合理性を示している。
関連論文リスト
- Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval [13.061063817876336]
画像テキスト検索のための階層型グラフアライメントネットワーク(HGAN)を提案する。
まず、包括的マルチモーダル特徴を捉えるために、画像の特徴グラフとテキストのモダリティをそれぞれ構築する。
そして、MFAR(Multi-granularity Feature Aggregation and Rearrangement)モジュールを設計した多粒性共有空間を構築する。
最後に、最終的な画像とテキストの特徴は、階層的アライメントを達成するために、3レベル類似関数によってさらに洗練される。
論文 参考訳(メタデータ) (2022-12-16T05:08:52Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。