論文の概要: The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses
- arxiv url: http://arxiv.org/abs/2312.10854v1
- Date: Mon, 18 Dec 2023 00:05:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:09:06.856261
- Title: The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses
- Title(参考訳): 右利得の右利得 : 分散感性損失による深部テキスト・画像生成のセマンティック一貫性の改善
- Authors: Mahmoud Ahmed, Omer Moussa, Ismail Shaheen, Mohamed Abdelfattah, Amr
Abdalla, Marwan Eid, Hesham Eraqi, Mohamed Moustafa
- Abstract要約: 本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
- 参考スコア(独自算出の注目度): 0.35898124827270983
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One of the major challenges in training deep neural networks for
text-to-image generation is the significant linguistic discrepancy between
ground-truth captions of each image in most popular datasets. The large
difference in the choice of words in such captions results in synthesizing
images that are semantically dissimilar to each other and to their ground-truth
counterparts. Moreover, existing models either fail to generate the
fine-grained details of the image or require a huge number of parameters that
renders them inefficient for text-to-image synthesis. To fill this gap in the
literature, we propose using the contrastive learning approach with a novel
combination of two loss functions: fake-to-fake loss to increase the semantic
consistency between generated images of the same caption, and fake-to-real loss
to reduce the gap between the distributions of real images and fake ones. We
test this approach on two baseline models: SSAGAN and AttnGAN (with style
blocks to enhance the fine-grained details of the images.) Results show that
our approach improves the qualitative results on AttnGAN with style blocks on
the CUB dataset. Additionally, on the challenging COCO dataset, our approach
achieves competitive results against the state-of-the-art Lafite model,
outperforms the FID score of SSAGAN model by 44.
- Abstract(参考訳): テキストから画像への生成のためのディープニューラルネットワークのトレーニングにおける大きな課題の1つは、一般的なデータセットにおいて、各画像の真正銘のキャプション間の重要な言語的不一致である。
このようなキャプションにおける単語の選択の大きな違いは、意味的に異なる画像と、その基盤となる真実とを合成する結果をもたらす。
さらに、既存のモデルは、画像のきめ細かい詳細を生成できないか、テキストと画像の合成に非効率な大量のパラメータを必要とする。
このギャップを埋めるために,本論文では,同一キャプションの生成した画像間の意味的一貫性を高める偽対偽の損失と,実画像と偽画像の分布のギャップを低減する偽対実の損失という,2つの損失関数の新たな組み合わせを用いて,対照的な学習手法を提案する。
本手法は,SSAGANとAttnGANの2つのベースラインモデルで検証した結果,CUBデータセットのスタイルブロックを用いて,AttnGANの質的結果を改善することができた。
さらに,難易度の高いCOCOデータセットでは,最先端のLafiteモデルと競合する結果が得られ,SSAGANモデルのFIDスコアを44。
関連論文リスト
- Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients [0.0]
本稿では,Contrastive Unpaired Translation (CUT)モデルに基づく,教師なし画像から画像への変換手法を提案する。
この新しいアプローチは、セマンティックラベルなしでも画像のセマンティック構造を確実に保存する。
本手法は,GTA5データセットから都市景観データセットのリアルな都市シーンへの合成ゲーム環境の変換について検討した。
論文 参考訳(メタデータ) (2024-09-24T12:44:27Z) - Improving Text Generation on Images with Synthetic Captions [2.1175632266708733]
SDXLやSD 1.5のような潜伏拡散モデルは、現実的な画像を生成する上で重要な能力を示している。
本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。
提案手法は,異なるシナリオにおけるテキスト生成の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2024-06-01T17:27:34Z) - Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。
本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文 参考訳(メタデータ) (2024-03-28T07:43:49Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - Improving Text to Image Generation using Mode-seeking Function [5.92166950884028]
異なる画像を生成するための特別なモード探索損失関数を開発する。
われわれのモデルは、Caltech BirdsデータセットとMicrosoft COCOデータセットで検証する。
実験結果から,我々のモデルは最先端のアプローチと比較して非常によく機能することが示された。
論文 参考訳(メタデータ) (2020-08-19T12:58:32Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。