Fugu-MT 論文翻訳(概要): The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses

論文の概要: The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses

arxiv url: http://arxiv.org/abs/2312.10854v1
Date: Mon, 18 Dec 2023 00:05:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 14:09:06.856261
Title: The Right Losses for the Right Gains: Improving the Semantic Consistency of Deep Text-to-Image Generation with Distribution-Sensitive Losses
Title（参考訳）: 右利得の右利得 : 分散感性損失による深部テキスト・画像生成のセマンティック一貫性の改善
Authors: Mahmoud Ahmed, Omer Moussa, Ismail Shaheen, Mohamed Abdelfattah, Amr Abdalla, Marwan Eid, Hesham Eraqi, Mohamed Moustafa
Abstract要約: 本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
参考スコア（独自算出の注目度）: 0.35898124827270983
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: One of the major challenges in training deep neural networks for text-to-image generation is the significant linguistic discrepancy between ground-truth captions of each image in most popular datasets. The large difference in the choice of words in such captions results in synthesizing images that are semantically dissimilar to each other and to their ground-truth counterparts. Moreover, existing models either fail to generate the fine-grained details of the image or require a huge number of parameters that renders them inefficient for text-to-image synthesis. To fill this gap in the literature, we propose using the contrastive learning approach with a novel combination of two loss functions: fake-to-fake loss to increase the semantic consistency between generated images of the same caption, and fake-to-real loss to reduce the gap between the distributions of real images and fake ones. We test this approach on two baseline models: SSAGAN and AttnGAN (with style blocks to enhance the fine-grained details of the images.) Results show that our approach improves the qualitative results on AttnGAN with style blocks on the CUB dataset. Additionally, on the challenging COCO dataset, our approach achieves competitive results against the state-of-the-art Lafite model, outperforms the FID score of SSAGAN model by 44.
Abstract（参考訳）: テキストから画像への生成のためのディープニューラルネットワークのトレーニングにおける大きな課題の1つは、一般的なデータセットにおいて、各画像の真正銘のキャプション間の重要な言語的不一致である。このようなキャプションにおける単語の選択の大きな違いは、意味的に異なる画像と、その基盤となる真実とを合成する結果をもたらす。さらに、既存のモデルは、画像のきめ細かい詳細を生成できないか、テキストと画像の合成に非効率な大量のパラメータを必要とする。このギャップを埋めるために,本論文では,同一キャプションの生成した画像間の意味的一貫性を高める偽対偽の損失と,実画像と偽画像の分布のギャップを低減する偽対実の損失という,2つの損失関数の新たな組み合わせを用いて,対照的な学習手法を提案する。本手法は,SSAGANとAttnGANの2つのベースラインモデルで検証した結果,CUBデータセットのスタイルブロックを用いて,AttnGANの質的結果を改善することができた。さらに,難易度の高いCOCOデータセットでは,最先端のLafiteモデルと競合する結果が得られ,SSAGANモデルのFIDスコアを44。

関連論文リスト

Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data [7.879286384561264]
ビジョンランゲージモデル(Vision-Language Model)は、適切な構成的理解を備えたビジョンランゲージモデルである。合成学習のための訓練画像の合成には 3つの課題があります。本稿では,画像特徴注入を高速テキスト・画像生成モデルに統合したロバスト構成学習を支援するための合成摂動法を提案する。
論文参考訳（メタデータ） (2025-03-03T04:30:39Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
Enhanced Unsupervised Image-to-Image Translation Using Contrastive Learning and Histogram of Oriented Gradients [0.0]
本稿では,Contrastive Unpaired Translation (CUT)モデルに基づく,教師なし画像から画像への変換手法を提案する。この新しいアプローチは、セマンティックラベルなしでも画像のセマンティック構造を確実に保存する。本手法は,GTA5データセットから都市景観データセットのリアルな都市シーンへの合成ゲーム環境の変換について検討した。
論文参考訳（メタデータ） (2024-09-24T12:44:27Z)
Improving Text Generation on Images with Synthetic Captions [2.1175632266708733]
SDXLやSD 1.5のような潜伏拡散モデルは、現実的な画像を生成する上で重要な能力を示している。本稿では,SDXLを大規模データセット上でのトレーニングに要しない,低コストなアプローチを提案する。提案手法は,異なるシナリオにおけるテキスト生成の精度向上に有効であることを示す。
論文参考訳（メタデータ） (2024-06-01T17:27:34Z)
Text Data-Centric Image Captioning with Interactive Prompts [20.48013600818985]
画像キャプションの監視手法は大きな進歩を遂げているが,高品質な人手による画像テキストデータの収集は困難である。本稿では,Interactive Prompts を用いた新しいテキストデータ中心型画像キャプタリング手法 TIPCap を提案する。
論文参考訳（メタデータ） (2024-03-28T07:43:49Z)
ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。 Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文参考訳（メタデータ） (2023-08-16T15:19:52Z)
Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文参考訳（メタデータ） (2023-04-02T10:25:09Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文参考訳（メタデータ） (2022-05-23T17:42:53Z)
Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。 CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文参考訳（メタデータ） (2021-07-06T06:43:31Z)
Improving Text to Image Generation using Mode-seeking Function [5.92166950884028]
異なる画像を生成するための特別なモード探索損失関数を開発する。われわれのモデルは、Caltech BirdsデータセットとMicrosoft COCOデータセットで検証する。実験結果から,我々のモデルは最先端のアプローチと比較して非常によく機能することが示された。
論文参考訳（メタデータ） (2020-08-19T12:58:32Z)
Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文参考訳（メタデータ） (2020-03-31T22:38:09Z)
Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文参考訳（メタデータ） (2020-02-07T03:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。