論文の概要: Style Generation: Image Synthesis based on Coarsely Matched Texts
- arxiv url: http://arxiv.org/abs/2309.04608v1
- Date: Fri, 8 Sep 2023 21:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 17:27:36.349958
- Title: Style Generation: Image Synthesis based on Coarsely Matched Texts
- Title(参考訳): スタイル生成:粗いマッチしたテキストに基づく画像合成
- Authors: Mengyao Cui, Zhe Zhu, Shao-Ping Lu, Yulu Yang
- Abstract要約: テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
- 参考スコア(独自算出の注目度): 10.939482612568433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous text-to-image synthesis algorithms typically use explicit textual
instructions to generate/manipulate images accurately, but they have difficulty
adapting to guidance in the form of coarsely matched texts. In this work, we
attempt to stylize an input image using such coarsely matched text as guidance.
To tackle this new problem, we introduce a novel task called text-based style
generation and propose a two-stage generative adversarial network: the first
stage generates the overall image style with a sentence feature, and the second
stage refines the generated style with a synthetic feature, which is produced
by a multi-modality style synthesis module. We re-filter one existing dataset
and collect a new dataset for the task. Extensive experiments and ablation
studies are conducted to validate our framework. The practical potential of our
work is demonstrated by various applications such as text-image alignment and
story visualization. Our datasets are published at
https://www.kaggle.com/datasets/mengyaocui/style-generation.
- Abstract(参考訳): 従来のテキストと画像の合成アルゴリズムは、通常、明示的なテキスト命令を使って画像を正確に生成・操作するが、粗い一致したテキストの形でのガイダンスへの適応は困難である。
本研究では,このような粗一致テキストを指導として,入力画像のスタイライゼーションを試みる。
この問題に対処するため,テキストベーススタイル生成と呼ばれる新しいタスクを導入し,第1段は文特徴付き全体画像スタイルを生成し,第2段は多モードスタイル合成モジュールで生成した合成特徴付き全体画像スタイルを改良する2段階生成対向ネットワークを提案する。
既存のデータセットを再フィルタし、タスクのための新しいデータセットを収集します。
本研究の枠組みを検証するため,大規模な実験およびアブレーション研究を行った。
本研究の実用性は,テキスト画像アライメントやストーリー視覚化といった様々な応用によって実証されている。
データセットはhttps://www.kaggle.com/datasets/mengyaocui/style-generationで公開しています。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Efficient Neural Architecture for Text-to-Image Synthesis [6.166295570030645]
本研究では,1つのジェネレータと1つの判別器を用いた1段階の訓練により,効果的なニューラルネットワークが最先端の性能を達成することを示す。
本研究は,近年,新しいニューラルアーキテクチャの実験を行っていないテキスト・ツー・イメージ研究の新たな方向性を指摘する。
論文 参考訳(メタデータ) (2020-04-23T19:33:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。