論文の概要: PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding
- arxiv url: http://arxiv.org/abs/2007.00977v1
- Date: Thu, 2 Jul 2020 09:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 12:58:28.652081
- Title: PerceptionGAN: Real-world Image Construction from Provided Text through
Perceptual Understanding
- Title(参考訳): perceptiongan: 知覚理解によるテキスト提供による実世界画像の構築
- Authors: Kanish Garg, Ajeet kumar Singh, Dorien Herremans, Brejesh Lall
- Abstract要約: 本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。
複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
- 参考スコア(独自算出の注目度): 11.985768957782641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating an image from a provided descriptive text is quite a challenging
task because of the difficulty in incorporating perceptual information (object
shapes, colors, and their interactions) along with providing high relevancy
related to the provided text. Current methods first generate an initial
low-resolution image, which typically has irregular object shapes, colors, and
interaction between objects. This initial image is then improved by
conditioning on the text. However, these methods mainly address the problem of
using text representation efficiently in the refinement of the initially
generated image, while the success of this refinement process depends heavily
on the quality of the initially generated image, as pointed out in the DM-GAN
paper. Hence, we propose a method to provide good initialized images by
incorporating perceptual understanding in the discriminator module. We improve
the perceptual information at the first stage itself, which results in
significant improvement in the final generated image. In this paper, we have
applied our approach to the novel StackGAN architecture. We then show that the
perceptual information included in the initial image is improved while modeling
image distribution at multiple stages. Finally, we generated realistic
multi-colored images conditioned by text. These images have good quality along
with containing improved basic perceptual information. More importantly, the
proposed method can be integrated into the pipeline of other state-of-the-art
text-based-image-generation models to generate initial low-resolution images.
We also worked on improving the refinement process in StackGAN by augmenting
the third stage of the generator-discriminator pair in the StackGAN
architecture. Our experimental analysis and comparison with the
state-of-the-art on a large but sparse dataset MS COCO further validate the
usefulness of our proposed approach.
- Abstract(参考訳): 提示された記述テキストから画像を生成することは、知覚情報(形状、色、およびそれらの相互作用)を組み込むことが困難であり、提供されたテキストに高い関連性を与えるため、非常に難しい作業である。
現在の方法では、通常不規則な物体の形、色、オブジェクト間の相互作用を持つ最初の低解像度画像を生成する。
この初期画像はテキストの条件付けによって改善される。
しかし,本手法は,dm-gan論文で指摘されているように,初期生成画像の精細化においてテキスト表現を効率的に利用する問題に主に対処しているが,この精細化プロセスの成功は初期生成画像の品質に大きく依存する。
そこで本研究では,識別器モジュールに知覚的理解を取り入れ,優れた初期化画像を提供する手法を提案する。
我々は第1段階の知覚情報を改善するとともに,最終生成画像の大幅な改善を実現した。
本稿では,新しいStackGANアーキテクチャにアプローチを適用した。
そして、複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。
最後に,テキストで条件づけされた現実的な多色画像を生成する。
これらの画像は、基本的な知覚情報の改善とともに高品質である。
さらに重要なことに、提案手法は他の最先端テキストベース画像生成モデルのパイプラインに統合でき、初期低解像度画像を生成することができる。
また,StackGANアーキテクチャにおけるジェネレータ-ディスクリミネータペアの第3段階の強化により,StackGANの洗練プロセスの改善にも取り組んでいる。
大規模だがスパースなデータセットMS COCOを用いた実験解析と最先端技術との比較により,提案手法の有効性がさらに検証された。
関連論文リスト
- Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。
この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。
次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文 参考訳(メタデータ) (2024-06-24T06:12:16Z) - CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。
画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。
画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文 参考訳(メタデータ) (2023-11-27T16:33:29Z) - Improving Scene Text Image Super-resolution via Dual Prior Modulation
Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。
既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。
我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文 参考訳(メタデータ) (2023-02-21T02:59:37Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Multi-Tailed, Multi-Headed, Spatial Dynamic Memory refined Text-to-Image
Synthesis [21.673771194165276]
現在の手法はテキストから画像を多段階的に合成するが、通常、まず粗い初期画像を生成し、その後、後の段階で画像の詳細を精査する。
提案手法は,これらの欠点に対処するための3つの新しいコンポーネントを提案する。
実験結果から,Multi-Tailed Word-level Initial Generation (MSMT-GAN) を用いたマルチヘッド空間動的メモリ画像の高精細化が,CUBおよびCOCOデータセットの先行技術に対して好意的に行われることが示された。
論文 参考訳(メタデータ) (2021-10-15T15:16:58Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。