論文の概要: Semantic-aware Data Augmentation for Text-to-image Synthesis
- arxiv url: http://arxiv.org/abs/2312.07951v1
- Date: Wed, 13 Dec 2023 07:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:25:30.418574
- Title: Semantic-aware Data Augmentation for Text-to-image Synthesis
- Title(参考訳): テキスト・画像合成のための意味認識データ拡張
- Authors: Zhaorui Tan, Xi Yang, Kaizhu Huang
- Abstract要約: テキスト・ツー・イメージ合成(T2Isyn)では、拡張の知恵は、拡張されたペアデータ間のセマンティックミスマッチに苦しむ。
本稿では,T2Isyn専用のSemantic-Aware Data Augmentationフレームワークを開発する。
- 参考スコア(独自算出の注目度): 19.28143363034362
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data augmentation has been recently leveraged as an effective regularizer in
various vision-language deep neural networks. However, in text-to-image
synthesis (T2Isyn), current augmentation wisdom still suffers from the semantic
mismatch between augmented paired data. Even worse, semantic collapse may occur
when generated images are less semantically constrained. In this paper, we
develop a novel Semantic-aware Data Augmentation (SADA) framework dedicated to
T2Isyn. In particular, we propose to augment texts in the semantic space via an
Implicit Textual Semantic Preserving Augmentation ($ITA$), in conjunction with
a specifically designed Image Semantic Regularization Loss ($L_r$) as Generated
Image Semantic Conservation, to cope well with semantic mismatch and collapse.
As one major contribution, we theoretically show that $ITA$ can certify better
text-image consistency while $L_r$ regularizing the semantics of generated
images would avoid semantic collapse and enhance image quality. Extensive
experiments validate that SADA enhances text-image consistency and improves
image quality significantly in T2Isyn models across various backbones.
Especially, incorporating SADA during the tuning process of Stable Diffusion
models also yields performance improvements.
- Abstract(参考訳): データ拡張は最近、様々な視覚言語ディープニューラルネットワークの効果的な正規化として活用されている。
しかし、テキスト・ツー・イメージ合成(T2Isyn)では、現在の拡張知恵は、拡張されたペアデータ間のセマンティックミスマッチに悩まされている。
さらに悪いことに、生成したイメージが意味的に制約されない場合にセマンティック崩壊が起こる可能性がある。
本稿では,T2Isyn専用のセマンティック・アウェア・データ拡張(SADA)フレームワークを開発する。
特に,意味空間におけるテキストの増補を暗黙のテクスト的意味保存拡張(ita$)と,生成された画像意味の保存として特別に設計された画像意味の正規化損失(l_r$)と組み合わせることで,意味的ミスマッチと崩壊にうまく対応できるように提案する。
1つの主要な貢献として、$ITA$がより良いテキストイメージの一貫性を証明できるのに対し、$L_r$は生成された画像の意味論を正規化することで、セマンティック崩壊を回避し、画像の品質を向上させることを理論的に示す。
SADAはテキスト画像の一貫性を高め、様々なバックボーンにまたがるT2Isynモデルの画質を大幅に向上する。
特に、安定拡散モデルのチューニングプロセス中にSADAを組み込むことで、性能が向上する。
関連論文リスト
- PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Cap2Aug: Caption guided Image to Image data Augmentation [41.53127698828463]
Cap2Augは、画像キャプションをテキストプロンプトとして使用する画像から画像への拡散モデルに基づくデータ拡張戦略である。
限られた訓練画像からキャプションを生成し,これらのキャプションを用いて画像間安定拡散モデルを用いてトレーニング画像を編集する。
この戦略は、トレーニング画像に似た画像の拡張バージョンを生成するが、サンプル全体にわたって意味的な多様性を提供する。
論文 参考訳(メタデータ) (2022-12-11T04:37:43Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - Towards Semantic Communications: Deep Learning-Based Image Semantic
Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。
画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。
実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文 参考訳(メタデータ) (2022-08-08T12:29:55Z) - RepMix: Representation Mixing for Robust Attribution of Synthesized
Images [15.698564265127432]
本稿では,その意味的内容に不変なイメージをマッチングできるソリューションを提案する。
次に,表現混合と新たな損失に基づくGANフィンガープリント技術であるRepMixを提案する。
提案手法は,意味的一般化とロバスト性の両方において,既存のGANフィンガープリント作業から大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-07-05T14:14:06Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。