論文の概要: Fine-grained Text to Image Synthesis
- arxiv url: http://arxiv.org/abs/2412.07196v2
- Date: Sun, 15 Dec 2024 22:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:58:04.870433
- Title: Fine-grained Text to Image Synthesis
- Title(参考訳): 微細なテキストと画像合成
- Authors: Xu Ouyang, Ying Chen, Kaiyue Zhu, Gady Agam,
- Abstract要約: 微細なテキストから画像合成は、異なるカテゴリに属するテキストから画像を生成する。
補助分類器は、識別器が画像のクラスを分類するのを手助けし、生成器がより正確なきめ細かい画像を合成するのを手助けする。
我々はCUB-200-2011の鳥のデータセットとオックスフォード102の花のデータセットを用いて,いくつかの最先端手法の評価を行った。
- 参考スコア(独自算出の注目度): 4.742847798631037
- License:
- Abstract: Fine-grained text to image synthesis involves generating images from texts that belong to different categories. In contrast to general text to image synthesis, in fine-grained synthesis there is high similarity between images of different subclasses, and there may be linguistic discrepancy among texts describing the same image. Recent Generative Adversarial Networks (GAN), such as the Recurrent Affine Transformation (RAT) GAN model, are able to synthesize clear and realistic images from texts. However, GAN models ignore fine-grained level information. In this paper we propose an approach that incorporates an auxiliary classifier in the discriminator and a contrastive learning method to improve the accuracy of fine-grained details in images synthesized by RAT GAN. The auxiliary classifier helps the discriminator classify the class of images, and helps the generator synthesize more accurate fine-grained images. The contrastive learning method minimizes the similarity between images from different subclasses and maximizes the similarity between images from the same subclass. We evaluate on several state-of-the-art methods on the commonly used CUB-200-2011 bird dataset and Oxford-102 flower dataset, and demonstrated superior performance.
- Abstract(参考訳): 微細なテキストから画像合成は、異なるカテゴリに属するテキストから画像を生成する。
一般的なテキストと画像合成とは対照的に、微細な合成では、異なるサブクラスの画像の間には高い類似性があり、同じ画像を記述するテキスト間で言語的な相違がある可能性がある。
最近のGAN(Recurrent Affine Transformation (RAT) GANモデル)は、テキストから明瞭でリアルな画像を合成することができる。
しかし、GANモデルはきめ細かいレベル情報を無視する。
本稿では,識別器に補助分類器を組み込んだ手法と,RAT GANで合成した画像の微細な詳細性の精度を向上させるためのコントラスト学習手法を提案する。
補助分類器は、識別器が画像のクラスを分類するのを手助けし、生成器がより正確なきめ細かい画像を合成するのを手助けする。
コントラスト学習法は、異なるサブクラスの画像間の類似度を最小化し、同一サブクラスの画像間の類似度を最大化する。
CUB-200-2011の鳥のデータセットとオックスフォード102の花のデータセットを用いて,いくつかの最先端手法の評価を行い,優れた性能を示した。
関連論文リスト
- DXAI: Explaining Classification by Image Decomposition [4.013156524547072]
我々は、分解に基づく説明可能なAI(DXAI)を用いてニューラルネットワークの分類を可視化する新しい方法を提案する。
本手法は,説明熱マップを提供する代わりに,画像のクラス非依存部分とクラス固有部分への分解を行う。
論文 参考訳(メタデータ) (2023-12-30T20:52:20Z) - Learning Vision from Models Rivals Learning Vision from Data [54.43596959598465]
合成画像と合成キャプションのみから視覚表現を学習するための新しいアプローチであるSynCLRを紹介する。
LLMを用いて画像キャプションの大規模なデータセットを合成し,既製のテキスト・ツー・イメージモデルを用いて合成キャプションに対応する複数の画像を生成する。
比較学習によって合成画像の視覚的表現学習を行い、同じ字幕を共有するイメージを正のペアとして扱う。
論文 参考訳(メタデータ) (2023-12-28T18:59:55Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Recurrent Affine Transformation for Text-to-image Synthesis [5.256132101498471]
既存の方法は通常、適切なテキスト情報を分離された融合ブロックで合成プロセスに適応的に融合する。
本稿では、全ての融合ブロックをリカレントニューラルネットワークに接続し、長期的依存をモデル化する、ジェネレーティブ・アドリラル・ネットワークのためのリカレントアフィン変換(RAT)を提案する。
テキスト記述は、一致する画像領域を認識して、より関連性の高い画像コンテンツを合成するためにジェネレータを監督する。
論文 参考訳(メタデータ) (2022-04-22T03:49:47Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - Improving Text-to-Image Synthesis Using Contrastive Learning [4.850820365312369]
本稿では,合成画像の品質向上とセマンティック一貫性向上のための対照的な学習手法を提案する。
CUBとCOCOのデータセットを用いた2つの一般的なテキスト・画像合成モデルであるAttnGANとDM-GANに対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-07-06T06:43:31Z) - Synthesize-It-Classifier: Learning a Generative Classifier through
RecurrentSelf-analysis [9.029985847202667]
本研究では,高分解能,フォトリアリスティック,多彩な画像を大規模に合成することにより,画像分類ネットワークの生成能力を示す。
Synthesize-It-Classifier(STIC)と呼ばれる全体的な方法論は、データ分布の密度を推定するために明示的なジェネレータネットワークを必要としません。
ImageNetデータセット上で合成された画像の反復描画を示すAttentive-STICネットワークを実証する。
論文 参考訳(メタデータ) (2021-03-26T02:00:29Z) - Image-to-Image Translation with Text Guidance [139.41321867508722]
本研究の目的は,制御可能な因子,すなわち自然言語記述を生成的敵ネットワークを用いた画像から画像への変換に組み込むことである。
提案する4つのキーコンポーネントは,(1)非意味的単語をフィルタリングする部分音声タグの実装,(2) 異なるモダリティテキストと画像特徴を効果的に融合するアフィン結合モジュールの採用,(3) 識別器の差分能力と生成器の整形能力を高めるための改良された多段階アーキテクチャである。
論文 参考訳(メタデータ) (2020-02-12T21:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。