論文の概要: Memory-Driven Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2208.07022v1
- Date: Mon, 15 Aug 2022 06:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 12:56:37.707505
- Title: Memory-Driven Text-to-Image Generation
- Title(参考訳): メモリ駆動型テキスト画像生成
- Authors: Bowen Li, Philip H. S. Torr, Thomas Lukasiewicz
- Abstract要約: 本稿では,メモリ駆動型半パラメトリックによるテキスト・ツー・イメージ生成手法を提案する。
非パラメトリック成分は、画像のトレーニングセットから構築された画像特徴のメモリバンクである。
パラメトリック成分は 生成的敵ネットワークです
- 参考スコア(独自算出の注目度): 126.58244124144827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a memory-driven semi-parametric approach to text-to-image
generation, which is based on both parametric and non-parametric techniques.
The non-parametric component is a memory bank of image features constructed
from a training set of images. The parametric component is a generative
adversarial network. Given a new text description at inference time, the memory
bank is used to selectively retrieve image features that are provided as basic
information of target images, which enables the generator to produce realistic
synthetic results. We also incorporate the content information into the
discriminator, together with semantic features, allowing the discriminator to
make a more reliable prediction. Experimental results demonstrate that the
proposed memory-driven semi-parametric approach produces more realistic images
than purely parametric approaches, in terms of both visual fidelity and
text-image semantic consistency.
- Abstract(参考訳): パラメトリック法と非パラメトリック法の両方に基づく、メモリ駆動によるテキストから画像へのセミパラメトリック法を提案する。
非パラメトリック成分は、画像のトレーニングセットから構築された画像特徴のメモリバンクである。
パラメトリック成分は生成的逆ネットワークである。
メモリバンクは、推論時に新たなテキスト記述が与えられると、ターゲット画像の基本情報として提供される画像特徴を選択的に検索し、現実的な合成結果を生成する。
また、コンテンツ情報を意味的特徴とともに識別器に組み込むことにより、識別器はより信頼性の高い予測を行うことができる。
実験結果から,提案したメモリ駆動セミパラメトリックアプローチは,視覚的忠実度とテキスト画像のセマンティック一貫性の両方の観点から,純粋パラメトリックアプローチよりもリアルな画像を生成することが示された。
関連論文リスト
- Image Generative Semantic Communication with Multi-Modal Similarity Estimation for Resource-Limited Networks [2.2997117992292764]
本研究では,多様な意味情報を利用したマルチモーダル画像伝送方式を提案する。
提案手法は,原画像からマルチモーダルな意味情報を抽出し,それを受信機に送信する。
受信機は画像生成モデルを用いて複数の画像を生成し、意味的類似性に基づいて出力画像を選択する。
論文 参考訳(メタデータ) (2024-04-17T11:42:39Z) - Beyond Generation: Harnessing Text to Image Models for Object Detection
and Segmentation [29.274362919954218]
精度の高いラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。
提案手法は、トレーニングデータ生成を前景オブジェクト生成とコンテキスト的に一貫性のある背景生成に分離する。
5つのオブジェクト検出とセグメンテーションデータセットに対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-09-12T04:41:45Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Improving Image Recognition by Retrieving from Web-Scale Image-Text Data [68.63453336523318]
本稿では,メモリから抽出した各サンプルの重要性を学習するアテンションベースのメモリモジュールを提案する。
既存の手法と比較して,提案手法は無関係な検索例の影響を排除し,入力クエリに有益であるものを保持する。
我々は、ImageNet-LT、Places-LT、Webvisionのデータセットで最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-04-11T12:12:05Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image
Generation [18.36261166580862]
テキスト・ツー・イメージ生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックな一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出する。
属性情報を補完する有効なテキスト表現法を提案する。
論文 参考訳(メタデータ) (2022-09-28T12:28:54Z) - Semi-parametric Makeup Transfer via Semantic-aware Correspondence [99.02329132102098]
ソース非メイクアップ画像と参照メークアップ画像との間の大きな相違は、メイクアップ転送における重要な課題の1つである。
非パラメトリック技術は、ポーズ、表現、オクルージョンの相違に対処する高い可能性を持っている。
非パラメトリックおよびパラメトリック機構の相互強度を組み合わせたtextbfSemi-textbfparametric textbfMakeup textbfTransfer (SpMT) 法を提案する。
論文 参考訳(メタデータ) (2022-03-04T12:54:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。