論文の概要: CRD-CGAN: Category-Consistent and Relativistic Constraints for Diverse
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2107.13516v1
- Date: Wed, 28 Jul 2021 17:38:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-29 13:56:27.739316
- Title: CRD-CGAN: Category-Consistent and Relativistic Constraints for Diverse
Text-to-Image Generation
- Title(参考訳): CRD-CGAN: 異種テキスト・画像生成のためのカテゴリー一貫性と相対論的制約
- Authors: Tao Hu, Chengjiang Long, Chunxia Xiao
- Abstract要約: 合成画像の多様性を最適化するために,カテゴリ一貫性と相対論的制約を導入する。
我々は、注意損失と多様性損失を用いて、GANの感度を改善し、注意と騒音を言葉で表現する。
最後に,K合成画像間の過剰カテゴリ問題を軽減するために,カテゴリ一貫性損失を導入する。
- 参考スコア(独自算出の注目度): 36.40105454413067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating photo-realistic images from a text description is a challenging
problem in computer vision. Previous works have shown promising performance to
generate synthetic images conditional on text by Generative Adversarial
Networks (GANs). In this paper, we focus on the category-consistent and
relativistic diverse constraints to optimize the diversity of synthetic images.
Based on those constraints, a category-consistent and relativistic diverse
conditional GAN (CRD-CGAN) is proposed to synthesize $K$ photo-realistic images
simultaneously. We use the attention loss and diversity loss to improve the
sensitivity of the GAN to word attention and noises. Then, we employ the
relativistic conditional loss to estimate the probability of relatively real or
fake for synthetic images, which can improve the performance of basic
conditional loss. Finally, we introduce a category-consistent loss to alleviate
the over-category issues between K synthetic images. We evaluate our approach
using the Birds-200-2011, Oxford-102 flower and MSCOCO 2014 datasets, and the
extensive experiments demonstrate superiority of the proposed method in
comparison with state-of-the-art methods in terms of photorealistic and
diversity of the generated synthetic images.
- Abstract(参考訳): テキスト記述から写真リアル画像を生成することは、コンピュータビジョンにおいて難しい問題である。
これまで,GAN(Generative Adversarial Networks)によるテキスト上での合成画像生成に期待できる性能を示してきた。
本稿では,合成画像の多様性を最適化するためのカテゴリ一貫性と相対論的制約に着目した。
これらの制約に基づき、カテゴリ一貫性と相対論的多彩な条件付きGAN (CRD-CGAN) を提案し、同時に$K$フォトリアリスティック画像を合成する。
単語の注意と雑音に対するganの感度を向上させるために注意損失と多様性損失を用いる。
次に, 相対論的条件損失を用いて, 合成画像に対して比較的現実的あるいは偽の確率を推定し, 基本条件損失の性能を向上させる。
最後に,K合成画像間の過剰カテゴリ問題を軽減するために,カテゴリ一貫性損失を導入する。
本研究では,birds-200-2011,oxford-102 flowerおよびmscoco 2014データセットを用いたアプローチを評価し,提案手法の精度を,生成した合成画像のフォトリアリスティックおよび多様性の観点から比較検討した。
関連論文リスト
- Gadolinium dose reduction for brain MRI using conditional deep learning [66.99830668082234]
これらの手法の主な課題は、コントラスト強調の正確な予測と現実的な画像の合成である。
コントラスト前の画像対とコントラスト後の画像対のサブトラクション画像に符号化されたコントラスト信号を利用することで、両課題に対処する。
各種スキャナー,フィールド強度,コントラストエージェントを用いた合成および実データに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-03-06T08:35:29Z) - Diversify, Don't Fine-Tune: Scaling Up Visual Recognition Training with
Synthetic Images [37.29348016920314]
そこで本研究では,既製の生成モデルを利用して合成訓練画像を生成する新しいフレームワークを提案する。
クラス名の曖昧さ、ナイーブなプロンプトの多様性の欠如、ドメインシフトに対処する。
我々のフレームワークは、より合成データによる認識モデルの性能を一貫して向上させる。
論文 参考訳(メタデータ) (2023-12-04T18:35:27Z) - Robustness-Guided Image Synthesis for Data-Free Quantization [15.91924736452861]
合成画像のセマンティクスを強化し,画像の多様性を向上させるために,ロバストネス誘導画像合成(RIS)を提案する。
RISは、合成画像のセマンティクスを強化し、画像の多様性を改善するための、シンプルだが効果的な方法である。
我々は、データフリーな量子化の様々な設定に対して最先端の性能を実現し、他のデータフリーな圧縮タスクにも拡張できる。
論文 参考訳(メタデータ) (2023-10-05T16:39:14Z) - Unsupervised Synthetic Image Refinement via Contrastive Learning and
Consistent Semantic-Structural Constraints [32.07631215590755]
コントラスト学習(CL)は、相関したパッチをまとめて、非相関的なパッチを分離するのに成功している。
本研究では,合成画像と精細画像間の意味的・構造的整合性を利用して,意味的歪みを低減するためにCLを採用する。
論文 参考訳(メタデータ) (2023-04-25T05:55:28Z) - Enhanced Sharp-GAN For Histopathology Image Synthesis [63.845552349914186]
病理組織像合成は、正確ながん検出のためのディープラーニングアプローチの訓練において、データ不足の問題に対処することを目的としている。
核トポロジと輪郭正則化を用いて合成画像の品質を向上させる新しい手法を提案する。
提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。
論文 参考訳(メタデータ) (2023-01-24T17:54:01Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - ART-SS: An Adaptive Rejection Technique for Semi-Supervised restoration
for adverse weather-affected images [24.03416814412226]
SSR法の性能に及ぼすラベルなしデータの影響について検討する。
性能を劣化させる未ラベル画像の拒否を行う手法を開発した。
論文 参考訳(メタデータ) (2022-03-17T12:00:31Z) - Label Geometry Aware Discriminator for Conditional Generative Networks [40.89719383597279]
条件付きGenerative Adversarial Networks(GAN)は、目的のターゲットクラスで高画質の画像を生成することができます。
これらの合成画像は、画像分類などの下流監督タスクを改善するために必ずしも役に立たない。
論文 参考訳(メタデータ) (2021-05-12T08:17:25Z) - Multimodal Image Synthesis with Conditional Implicit Maximum Likelihood
Estimation [54.17177006826262]
我々はImplicit Maximum Likelihood Estimation (IMLE)に基づく新しい一般条件画像合成法を開発した。
我々は,シーンレイアウトからの単一画像超解像と画像合成という,2つのタスクにおけるマルチモーダル画像合成性能の改善を実証した。
論文 参考訳(メタデータ) (2020-04-07T03:06:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。