論文の概要: End-to-end Training for Text-to-Image Synthesis using Dual-Text Embeddings
- arxiv url: http://arxiv.org/abs/2502.01507v1
- Date: Mon, 03 Feb 2025 16:40:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:59:17.247483
- Title: End-to-end Training for Text-to-Image Synthesis using Dual-Text Embeddings
- Title(参考訳): デュアルテキスト埋め込みを用いたテキスト・ツー・イメージ・シンセサイザーのエンドツーエンド・トレーニング
- Authors: Yeruru Asrar Ahmed, Anurag Mittal,
- Abstract要約: 本研究では,テキスト・ツー・イメージ合成ネットワークに適したテキスト埋め込み学習手法について検討する。
生成的およびコントラスト的なトレーニングを組み合わせることで、生成画像の写実性を高めるために最適化された2つの埋め込みと、テキストと画像のアライメントをキャプチャする2つの埋め込みを利用する。
3つのテキスト・ツー・イメージ・ベンチマーク・データセットに対する総合的な実験により、2つの別々の埋め込みが共有テキストを使用するよりも優れた結果をもたらすことが明らかとなり、差別的アプローチを用いて訓練された事前学習されたテキストエンコーダのテキスト表現を使用する手法と比較して、そのようなアプローチが好適に機能することが確認された。
- 参考スコア(独自算出の注目度): 5.217870815854702
- License:
- Abstract: Text-to-Image (T2I) synthesis is a challenging task that requires modeling complex interactions between two modalities ( i.e., text and image). A common framework adopted in recent state-of-the-art approaches to achieving such multimodal interactions is to bootstrap the learning process with pre-trained image-aligned text embeddings trained using contrastive loss. Furthermore, these embeddings are typically trained generically and reused across various synthesis models. In contrast, we explore an approach to learning text embeddings specifically tailored to the T2I synthesis network, trained in an end-to-end fashion. Further, we combine generative and contrastive training and use two embeddings, one optimized to enhance the photo-realism of the generated images, and the other seeking to capture text-to-image alignment. A comprehensive set of experiments on three text-to-image benchmark datasets (Oxford-102, Caltech-UCSD, and MS-COCO) reveal that having two separate embeddings gives better results than using a shared one and that such an approach performs favourably in comparison with methods that use text representations from a pre-trained text encoder trained using a discriminative approach. Finally, we demonstrate that such learned embeddings can be used in other contexts as well, such as text-to-image manipulation.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)合成は、2つのモード(テキストと画像)間の複雑な相互作用をモデル化する必要がある課題である。
このようなマルチモーダルな相互作用を実現するための最近の最先端のアプローチで採用されている一般的なフレームワークは、対照的な損失を用いて訓練された事前学習された画像整列テキスト埋め込みを用いて学習プロセスをブートストラップすることである。
さらに、これらの埋め込みは一般的に汎用的に訓練され、様々な合成モデルで再利用される。
対照的に,本研究では,T2I合成ネットワークに特化して,エンドツーエンドで訓練されたテキスト埋め込みを学習するアプローチについて検討する。
さらに、生成的およびコントラスト的なトレーニングを組み合わせ、生成した画像の写実性を高めるために最適化された2つの埋め込みと、テキストと画像のアライメントを捉えるための2つの埋め込みを使用する。
3つのテキスト間ベンチマークデータセット(Oxford-102、Caltech-UCSD、MS-COCO)の包括的な実験により、2つの別々の埋め込みを持つことで、共有データを使用するよりも優れた結果が得られることが判明した。
最後に,テキスト・ツー・イメージ操作などの他の文脈でも,このような学習された埋め込みが利用可能であることを実証する。
関連論文リスト
- Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。