論文の概要: Improving Text to Image Generation using Mode-seeking Function
- arxiv url: http://arxiv.org/abs/2008.08976v4
- Date: Fri, 18 Sep 2020 20:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 12:37:16.044979
- Title: Improving Text to Image Generation using Mode-seeking Function
- Title(参考訳): モードシーキング機能を用いたテキスト画像生成の改善
- Authors: Naitik Bhise, Zhenfei Zhang, Tien D. Bui
- Abstract要約: 異なる画像を生成するための特別なモード探索損失関数を開発する。
われわれのモデルは、Caltech BirdsデータセットとMicrosoft COCOデータセットで検証する。
実験結果から,我々のモデルは最先端のアプローチと比較して非常によく機能することが示された。
- 参考スコア(独自算出の注目度): 5.92166950884028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Adversarial Networks (GANs) have long been used to understand the
semantic relationship between the text and image. However, there are problems
with mode collapsing in the image generation that causes some preferred output
modes. Our aim is to improve the training of the network by using a specialized
mode-seeking loss function to avoid this issue. In the text to image synthesis,
our loss function differentiates two points in latent space for the generation
of distinct images. We validate our model on the Caltech Birds (CUB) dataset
and the Microsoft COCO dataset by changing the intensity of the loss function
during the training. Experimental results demonstrate that our model works very
well compared to some state-of-the-art approaches.
- Abstract(参考訳): Generative Adversarial Networks (GAN) は、テキストと画像間の意味的関係を理解するために長い間使われてきた。
しかし、画像生成においてモード崩壊の問題があり、いくつかの好ましい出力モードが生じる。
本研究の目的は,特定のモード探索損失関数を用いてネットワークのトレーニングを改善することである。
テキストから画像合成における損失関数は,画像生成における遅延空間内の2点を区別する。
CUB(Caltech Birds)データセットとMicrosoft COCOデータセット上で,トレーニング中の損失関数の強度を変化させることで,本モデルを検証した。
実験の結果,我々のモデルは最先端のアプローチと比較して非常によく機能することがわかった。
関連論文リスト
- Multi-Scale Texture Loss for CT denoising with GANs [0.9349653765341301]
GAN(Generative Adversarial Networks)は、医療画像の応用を認知するための強力なフレームワークとして証明されている。
本研究は,Gray-Level-Co-occurrence Matrix (GLCM) の内在的マルチスケール特性を利用した損失関数を提案する。
また,画像から抽出したマルチスケールテクスチャ情報を動的に集約する自己認識層を導入する。
論文 参考訳(メタデータ) (2024-03-25T11:28:52Z) - The Right Losses for the Right Gains: Improving the Semantic Consistency
of Deep Text-to-Image Generation with Distribution-Sensitive Losses [0.35898124827270983]
本稿では,2つの損失関数の新たな組み合わせであるフェイク・ツー・フェイク・ツー・フェイク・フェイク・ロスと,フェイク・トゥ・リアル・ロスの対比学習手法を提案する。
このアプローチをSSAGANとAttnGANの2つのベースラインモデルで検証する。
提案手法は,CUBデータセットのスタイルブロックを用いて,AttnGANの定性的な結果を改善することを示す。
論文 参考訳(メタデータ) (2023-12-18T00:05:28Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Intra-Modal Constraint Loss For Image-Text Retrieval [10.496611712280972]
クロスモーダル検索はコンピュータビジョンと自然言語処理領域に大きな注目を集めている。
畳み込みと繰り返しのニューラルネットワークの開発により、画像-テキストモダリティ間の検索のボトルネックは、もはや画像とテキストの特徴の抽出ではなく、埋め込み空間における効率的な損失関数学習である。
本稿では,画像とテキストの結合埋め込みをモダル内制約損失関数を用いて学習し,同じ均一なモードから負対の違反を低減する方法を提案する。
論文 参考訳(メタデータ) (2022-07-11T17:21:25Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - A Loss Function for Generative Neural Networks Based on Watson's
Perceptual Model [14.1081872409308]
変動オートエンコーダ(VAE)を訓練して現実的な画像を生成するには、画像類似性に対する人間の認識を反映する損失関数が必要である。
本稿では,周波数空間における重み付き距離を計算し,輝度とコントラストマスキングを考慮したWatsonの知覚モデルに基づく損失関数を提案する。
実験では、新しい損失関数で訓練されたVAEが、現実的で高品質な画像サンプルを生成した。
論文 参考訳(メタデータ) (2020-06-26T15:36:11Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。