論文の概要: Efficient Neural Architecture for Text-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2004.11437v1
- Date: Thu, 23 Apr 2020 19:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:09:50.839821
- Title: Efficient Neural Architecture for Text-to-Image Synthesis
- Title(参考訳): テキスト・画像合成のための効率的なニューラルネットワーク
- Authors: Douglas M. Souza, J\^onatas Wehrmann, Duncan D. Ruiz
- Abstract要約: 本研究では,1つのジェネレータと1つの判別器を用いた1段階の訓練により,効果的なニューラルネットワークが最先端の性能を達成することを示す。
本研究は,近年,新しいニューラルアーキテクチャの実験を行っていないテキスト・ツー・イメージ研究の新たな方向性を指摘する。
- 参考スコア(独自算出の注目度): 6.166295570030645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image synthesis is the task of generating images from text
descriptions. Image generation, by itself, is a challenging task. When we
combine image generation and text, we bring complexity to a new level: we need
to combine data from two different modalities. Most of recent works in
text-to-image synthesis follow a similar approach when it comes to neural
architectures. Due to aforementioned difficulties, plus the inherent difficulty
of training GANs at high resolutions, most methods have adopted a multi-stage
training strategy. In this paper we shift the architectural paradigm currently
used in text-to-image methods and show that an effective neural architecture
can achieve state-of-the-art performance using a single stage training with a
single generator and a single discriminator. We do so by applying deep residual
networks along with a novel sentence interpolation strategy that enables
learning a smooth conditional space. Finally, our work points a new direction
for text-to-image research, which has not experimented with novel neural
architectures recently.
- Abstract(参考訳): テキスト画像合成は、テキスト記述から画像を生成するタスクである。
画像生成そのものは、難しい課題だ。
画像生成とテキストを組み合わせると、新しいレベルに複雑さをもたらします。
テキストと画像の合成に関する最近の研究のほとんどは、ニューラルアーキテクチャに関しても同様のアプローチを採用している。
上記の困難さに加えて、高解像度でGANを訓練することが本質的に困難であることから、ほとんどの手法は多段階の訓練戦略を採用している。
本稿では,現在,テキストから画像への変換に使用されているアーキテクチャパラダイムをシフトし,単一の生成器と1つの識別器による単一ステージトレーニングによって,効果的なニューラルネットワークが最先端のパフォーマンスを達成可能であることを示す。
我々は,スムーズな条件空間の学習を可能にする新しい文補間戦略とともに,深い残差ネットワークを適用する。
最後に本研究は,近年,新しいニューラルアーキテクチャを実験していないテキスト・ツー・イメージ研究の新たな方向性を示す。
関連論文リスト
- Advanced Multimodal Deep Learning Architecture for Image-Text Matching [33.8315200009152]
画像テキストマッチングは、画像とテキスト間の意味的関連をマッチング関係としてモデル化することを目的とした、重要なマルチモーダルタスクである。
本稿では、視覚情報のための深層ニューラルネットワークの高レベル抽象表現能力と、テキスト意味理解のための自然言語処理モデルの利点を組み合わせた高度なマルチモーダルディープラーニングアーキテクチャを提案する。
実験の結果、既存の画像テキストマッチングモデルと比較して、最適化された新しいモデルは一連のベンチマークデータセットの性能を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-13T08:32:24Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Self-Supervised Image-to-Text and Text-to-Image Synthesis [23.587581181330123]
クロスモーダルな埋め込み空間を学習するための,新たな自己教師型深層学習手法を提案する。
そこで本研究では,まず,StackGANベースのオートエンコーダモデルを用いて画像の高密度ベクトル表現と,LSTMベースのテキストオートエンコーダを用いた文レベルでの高密度ベクトル表現を得る。
論文 参考訳(メタデータ) (2021-12-09T13:54:56Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - StEP: Style-based Encoder Pre-training for Multi-modal Image Synthesis [68.3787368024951]
マルチモーダルイメージ・ツー・イメージ(I2I)翻訳のための新しいアプローチを提案する。
我々は、出力領域の可変性をモデル化する潜伏埋め込みをジェネレータと共同で学習する。
具体的には、新しいプロキシタスクを用いて汎用的なスタイルエンコーダを事前訓練し、任意のドメインから低次元のスタイル潜在空間への画像の埋め込みを学習する。
論文 参考訳(メタデータ) (2021-04-14T19:58:24Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - NAS-DIP: Learning Deep Image Prior with Neural Architecture Search [65.79109790446257]
近年の研究では、深部畳み込みニューラルネットワークの構造が、以前に構造化された画像として利用できることが示されている。
我々は,より強い画像の先行を捉えるニューラルネットワークの探索を提案する。
既存のニューラルネットワーク探索アルゴリズムを利用して,改良されたネットワークを探索する。
論文 参考訳(メタデータ) (2020-08-26T17:59:36Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。