論文の概要: RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
- arxiv url: http://arxiv.org/abs/2405.08114v1
- Date: Mon, 13 May 2024 18:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 15:56:55.046829
- Title: RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations
- Title(参考訳): RATLIP: 繰り返しアフィン変換に基づくCLIPテキスト・画像合成
- Authors: Chengde Lin, Xijun Lu, Guangxi Chen,
- Abstract要約: 条件付きアフィン変換(CAT)は、画像中のコンテンツ合成を制御するために、GANの異なる層に適用されている。
まず、各レイヤがグローバル情報にアクセスできるようにするために、CATとRAT(Recurrent Neural Network)をモデル化する。
次に、リカレントニューラルネットワークにおける情報忘れの特性を軽減するために、RAT間のシャッフルアテンションを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthesizing high-quality photorealistic images with textual descriptions as a condition is very challenging. Generative Adversarial Networks (GANs), the classical model for this task, frequently suffer from low consistency between image and text descriptions and insufficient richness in synthesized images. Recently, conditional affine transformations (CAT), such as conditional batch normalization and instance normalization, have been applied to different layers of GAN to control content synthesis in images. CAT is a multi-layer perceptron that independently predicts data based on batch statistics between neighboring layers, with global textual information unavailable to other layers. To address this issue, we first model CAT and a recurrent neural network (RAT) to ensure that different layers can access global information. We then introduce shuffle attention between RAT to mitigate the characteristic of information forgetting in recurrent neural networks. Moreover, both our generator and discriminator utilize the powerful pre-trained model, Clip, which has been extensively employed for establishing associations between text and images through the learning of multimodal representations in latent space. The discriminator utilizes CLIP's ability to comprehend complex scenes to accurately assess the quality of the generated images. Extensive experiments have been conducted on the CUB, Oxford, and CelebA-tiny datasets to demonstrate the superiority of the proposed model over current state-of-the-art models. The code is https://github.com/OxygenLu/RATLIP.
- Abstract(参考訳): テキスト記述を条件として高品質なフォトリアリスティック画像の合成は非常に困難である。
このタスクの古典的モデルであるGAN(Generative Adversarial Networks)は、画像とテキストの記述の整合性が低く、合成画像の豊かさが不十分であることが多い。
近年,条件付きバッチ正規化やインスタンス正規化などの条件付きアフィン変換(CAT)が,GANの異なる層に適用され,画像中のコンテンツ合成が制御されている。
CATは、隣接層間のバッチ統計に基づいて独立してデータを予測する多層パーセプトロンであり、グローバルテキスト情報は他の層では利用できない。
この問題に対処するために、私たちはまずCATとリカレントニューラルネットワーク(RAT)をモデル化し、異なるレイヤがグローバル情報にアクセスできるようにする。
次に、リカレントニューラルネットワークにおける情報忘れの特性を軽減するために、RAT間のシャッフルアテンションを導入する。
さらに,テキストと画像の関連性を確立するために,潜在空間におけるマルチモーダル表現の学習を通じて広く利用されている,強力な事前学習モデルであるClipを利用している。
判別器は複雑なシーンを理解するCLIPの能力を利用して、生成された画像の品質を正確に評価する。
CUB、オックスフォード、CelebA-tinyのデータセットで、現在の最先端モデルよりも提案モデルの方が優れていることを示す大規模な実験が行われた。
コードはhttps://github.com/OxygenLu/RATLIPである。
関連論文リスト
- Multi-Scale Texture Loss for CT denoising with GANs [0.9349653765341301]
GAN(Generative Adversarial Networks)は、医療画像の応用を認知するための強力なフレームワークとして証明されている。
本研究は,Gray-Level-Co-occurrence Matrix (GLCM) の内在的マルチスケール特性を利用した損失関数を提案する。
また,画像から抽出したマルチスケールテクスチャ情報を動的に集約する自己認識層を導入する。
論文 参考訳(メタデータ) (2024-03-25T11:28:52Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - DeepDC: Deep Distance Correlation as a Perceptual Image Quality
Evaluator [53.57431705309919]
ImageNet Pre-trained Deep Neural Network (DNN)は、効果的な画像品質評価(IQA)モデルを構築するための顕著な転送性を示す。
我々は,事前学習DNN機能のみに基づく新しいフル参照IQA(FR-IQA)モデルを開発した。
5つの標準IQAデータセット上で,提案した品質モデルの優位性を示すため,包括的実験を行った。
論文 参考訳(メタデータ) (2022-11-09T14:57:27Z) - Conditional Generation of Synthetic Geospatial Images from Pixel-level
and Feature-level Inputs [0.0]
画素レベル条件 (PLC) と特徴レベル条件 (FLC) を同時に条件付きで合成する条件生成モデル VAE-Info-cGAN を提案する。
提案モデルでは,道路網の時間的表現のみを条件に,異なる地理的位置をまたいだ様々な形態のマクロアグリゲーションを高精度に生成することができる。
論文 参考訳(メタデータ) (2021-09-11T06:58:19Z) - Synthesize-It-Classifier: Learning a Generative Classifier through
RecurrentSelf-analysis [9.029985847202667]
本研究では,高分解能,フォトリアリスティック,多彩な画像を大規模に合成することにより,画像分類ネットワークの生成能力を示す。
Synthesize-It-Classifier(STIC)と呼ばれる全体的な方法論は、データ分布の密度を推定するために明示的なジェネレータネットワークを必要としません。
ImageNetデータセット上で合成された画像の反復描画を示すAttentive-STICネットワークを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:00:29Z) - VAE-Info-cGAN: Generating Synthetic Images by Combining Pixel-level and
Feature-level Geospatial Conditional Inputs [0.0]
画素レベル(PLC)と特徴レベル(FLC)を同時に条件付けした意味的リッチな画像を合成するための条件生成モデルを提案する。
GPSデータセットを用いた実験では,提案モデルが地理的に異なる場所にまたがる様々な形態のマクロアグリゲーションを正確に生成できることが示されている。
論文 参考訳(メタデータ) (2020-12-08T03:46:19Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。