Fugu-MT 論文翻訳(概要): PerceptionGAN: Real-world Image Construction from Provided Text through Perceptual Understanding

論文の概要: PerceptionGAN: Real-world Image Construction from Provided Text through Perceptual Understanding

arxiv url: http://arxiv.org/abs/2007.00977v1
Date: Thu, 2 Jul 2020 09:23:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-14 12:58:28.652081
Title: PerceptionGAN: Real-world Image Construction from Provided Text through Perceptual Understanding
Title（参考訳）: perceptiongan: 知覚理解によるテキスト提供による実世界画像の構築
Authors: Kanish Garg, Ajeet kumar Singh, Dorien Herremans, Brejesh Lall
Abstract要約: 本稿では,識別器モジュールに知覚的理解を取り入れ,優れた画像を提供する手法を提案する。複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。さらに重要なことに、提案手法は他の最先端のテキストベース画像生成モデルのパイプラインに統合することができる。
参考スコア（独自算出の注目度）: 11.985768957782641
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating an image from a provided descriptive text is quite a challenging task because of the difficulty in incorporating perceptual information (object shapes, colors, and their interactions) along with providing high relevancy related to the provided text. Current methods first generate an initial low-resolution image, which typically has irregular object shapes, colors, and interaction between objects. This initial image is then improved by conditioning on the text. However, these methods mainly address the problem of using text representation efficiently in the refinement of the initially generated image, while the success of this refinement process depends heavily on the quality of the initially generated image, as pointed out in the DM-GAN paper. Hence, we propose a method to provide good initialized images by incorporating perceptual understanding in the discriminator module. We improve the perceptual information at the first stage itself, which results in significant improvement in the final generated image. In this paper, we have applied our approach to the novel StackGAN architecture. We then show that the perceptual information included in the initial image is improved while modeling image distribution at multiple stages. Finally, we generated realistic multi-colored images conditioned by text. These images have good quality along with containing improved basic perceptual information. More importantly, the proposed method can be integrated into the pipeline of other state-of-the-art text-based-image-generation models to generate initial low-resolution images. We also worked on improving the refinement process in StackGAN by augmenting the third stage of the generator-discriminator pair in the StackGAN architecture. Our experimental analysis and comparison with the state-of-the-art on a large but sparse dataset MS COCO further validate the usefulness of our proposed approach.
Abstract（参考訳）: 提示された記述テキストから画像を生成することは、知覚情報(形状、色、およびそれらの相互作用)を組み込むことが困難であり、提供されたテキストに高い関連性を与えるため、非常に難しい作業である。現在の方法では、通常不規則な物体の形、色、オブジェクト間の相互作用を持つ最初の低解像度画像を生成する。この初期画像はテキストの条件付けによって改善される。しかし,本手法は,dm-gan論文で指摘されているように,初期生成画像の精細化においてテキスト表現を効率的に利用する問題に主に対処しているが,この精細化プロセスの成功は初期生成画像の品質に大きく依存する。そこで本研究では,識別器モジュールに知覚的理解を取り入れ,優れた初期化画像を提供する手法を提案する。我々は第1段階の知覚情報を改善するとともに,最終生成画像の大幅な改善を実現した。本稿では,新しいStackGANアーキテクチャにアプローチを適用した。そして、複数の段階で画像分布をモデル化しながら、初期画像に含まれる知覚情報が改善されることを示す。最後に,テキストで条件づけされた現実的な多色画像を生成する。これらの画像は、基本的な知覚情報の改善とともに高品質である。さらに重要なことに、提案手法は他の最先端テキストベース画像生成モデルのパイプラインに統合でき、初期低解像度画像を生成することができる。また,StackGANアーキテクチャにおけるジェネレータ-ディスクリミネータペアの第3段階の強化により,StackGANの洗練プロセスの改善にも取り組んでいる。大規模だがスパースなデータセットMS COCOを用いた実験解析と最先端技術との比較により,提案手法の有効性がさらに検証された。

関連論文リスト

Perceive, Understand and Restore: Real-World Image Super-Resolution with Autoregressive Multimodal Generative Models [33.76031793753807]
我々は、自己回帰型マルチモーダルモデルLumina-mGPTを堅牢なReal-ISRモデル、すなわちPUREに適応する。 PUREは入力された低画質の画像を認識して理解し、高品質の画像を復元する。実験により、PUREはリアルな細部を生成しながら、画像の内容を保存していることが示された。
論文参考訳（メタデータ） (2025-03-14T04:33:59Z)
Prompt-Consistency Image Generation (PCIG): A Unified Framework Integrating LLMs, Knowledge Graphs, and Controllable Diffusion Models [20.19571676239579]
生成した画像と対応する記述とのアライメントを強化するための,拡散に基づく新しいフレームワークを提案する。この枠組みは不整合現象の包括的解析に基づいて構築され,画像の表示に基づいて分類する。次に、最先端の制御可能な画像生成モデルとビジュアルテキスト生成モジュールを統合し、元のプロンプトと整合した画像を生成する。
論文参考訳（メタデータ） (2024-06-24T06:12:16Z)
CoSeR: Bridging Image and Language for Cognitive Super-Resolution [74.24752388179992]
本稿では,低解像度画像の理解能力を備えたSRモデルを実現するCoSeR(Cognitive Super-Resolution)フレームワークを提案する。画像の外観と言語理解を組み合わせることで、認知的な埋め込みを生成する。画像の忠実度をさらに向上させるため、「オール・イン・アテンション」と呼ばれる新しい条件注入方式を提案する。
論文参考訳（メタデータ） (2023-11-27T16:33:29Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Improving Scene Text Image Super-resolution via Dual Prior Modulation Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文参考訳（メタデータ） (2023-02-21T02:59:37Z)
Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文参考訳（メタデータ） (2022-06-02T08:34:25Z)
ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文参考訳（メタデータ） (2021-11-24T12:27:30Z)
DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文参考訳（メタデータ） (2021-08-27T07:20:34Z)
Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文参考訳（メタデータ） (2021-04-29T17:59:42Z)
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文参考訳（メタデータ） (2021-04-07T09:41:52Z)
DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文参考訳（メタデータ） (2020-08-13T12:51:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。