論文の概要: SegAttnGAN: Text to Image Generation with Segmentation Attention
- arxiv url: http://arxiv.org/abs/2005.12444v1
- Date: Mon, 25 May 2020 23:56:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:28:12.869300
- Title: SegAttnGAN: Text to Image Generation with Segmentation Attention
- Title(参考訳): SegAttnGAN: セグメンテーションを考慮したテキストから画像生成
- Authors: Yuchuan Gou, Qiancheng Wu, Minghao Li, Bo Gong, Mei Han
- Abstract要約: 本稿では,テキスト・ツー・イメージ合成タスクに新たなセグメンテーション情報を利用する新しい生成ネットワーク(SegAttnGAN)を提案する。
モデルに導入されたセグメンテーションデータは、ジェネレータトレーニングの有用なガイダンスを提供するため、提案モデルでは、より優れたリアリズム品質の画像を生成することができる。
- 参考スコア(独自算出の注目度): 6.561007033994183
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel generative network (SegAttnGAN) that
utilizes additional segmentation information for the text-to-image synthesis
task. As the segmentation data introduced to the model provides useful guidance
on the generator training, the proposed model can generate images with better
realism quality and higher quantitative measures compared with the previous
state-of-art methods. We achieved Inception Score of 4.84 on the CUB dataset
and 3.52 on the Oxford-102 dataset. Besides, we tested the self-attention
SegAttnGAN which uses generated segmentation data instead of masks from
datasets for attention and achieved similar high-quality results, suggesting
that our model can be adapted for the text-to-image synthesis task.
- Abstract(参考訳): 本稿では,テキストから画像への合成タスクに付加的なセグメンテーション情報を利用する新しい生成ネットワーク(segattngan)を提案する。
モデルに導入したセグメンテーションデータがジェネレータトレーニングに有用なガイダンスを提供するため,提案手法は,従来の最先端手法と比較して,よりリアルリズム品質,定量的な画像を生成することができる。
我々はCUBデータセットで4.84、オックスフォード102データセットで3.52のインセプションスコアを達成した。
さらに、注目のためにデータセットから生成されたマスクの代わりに生成されたセグメンテーションデータを用いて自己注意SegAttnGANをテストし、同様の高品質な結果を得た。
関連論文リスト
- Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance [1.2923961938782627]
制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張手法を提案する。
提案手法は,クラス・プロンプト・アペンディングとビジュアル・プリミティブ・コンバインドを用いた効率的なプロンプト生成を含む。
提案手法をPASCAL VOCデータセット上で評価した結果,セマンティックセグメンテーションにおける画像の合成に極めて有効であることが判明した。
論文 参考訳(メタデータ) (2024-09-09T19:01:14Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Few-shot Multispectral Segmentation with Representations Generated by Reinforcement Learning [0.0]
本稿では,強化学習を用いたマルチスペクトル画像における少数ショットセグメンテーション性能向上のための新しい手法を提案する。
我々の手法は、エージェントを訓練して、小さなデータセットを使って最も情報に富む表現を識別することを含む。
表現の長さが限られているため、モデルはオーバーフィッティングのリスクを伴わずに有用な表現を受け取る。
論文 参考訳(メタデータ) (2023-11-20T15:04:16Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Descriptive Modeling of Textiles using FE Simulations and Deep Learning [0.0]
織物の糸の幾何学的特徴を抽出する新しい完全自動化手法を提案する。
提案手法は、2つのディープニューラルネットワークアーキテクチャ(U-NetとMask RCNN)を用いる。
実験の結果,CT画像上で糸のインスタンスセグメンテーションを行う上で,本手法は正確かつ堅牢であることがわかった。
論文 参考訳(メタデータ) (2021-06-26T09:32:24Z) - CAGAN: Text-To-Image Generation with Combined Attention GANs [70.3497683558609]
テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
論文 参考訳(メタデータ) (2021-04-26T15:46:40Z) - Improving Augmentation and Evaluation Schemes for Semantic Image
Synthesis [16.097324852253912]
本稿では,GAN(Generative Adversarial Network)に特化して設計された新しい拡張方式を提案する。
本稿では,ジェネレータへの入力として使用するセマンティックラベルマップのオブジェクト形状をランダムにワープする。
ワープされたラベルマップと非ワープされたラベルマップと画像の間の局所的な形状の相違により、GANはシーンの構造的および幾何学的詳細をよりよく学習することができる。
論文 参考訳(メタデータ) (2020-11-25T10:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。