論文の概要: Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval
- arxiv url: http://arxiv.org/abs/2207.14428v1
- Date: Fri, 29 Jul 2022 01:21:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:50:19.338510
- Title: Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval
- Title(参考訳): きめ細かい画像からテキストへの検索のための対のクロスモーダルデータ拡張
- Authors: Hao Wang, Guosheng Lin, Steven C. H. Hoi, Chunyan Miao
- Abstract要約: 本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
- 参考スコア(独自算出の注目度): 142.047662926209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates an open research problem of generating text-image
pairs to improve the training of fine-grained image-to-text cross-modal
retrieval task, and proposes a novel framework for paired data augmentation by
uncovering the hidden semantic information of StyleGAN2 model. Specifically, we
first train a StyleGAN2 model on the given dataset. We then project the real
images back to the latent space of StyleGAN2 to obtain the latent codes. To
make the generated images manipulatable, we further introduce a latent space
alignment module to learn the alignment between StyleGAN2 latent codes and the
corresponding textual caption features. When we do online paired data
augmentation, we first generate augmented text through random token
replacement, then pass the augmented text into the latent space alignment
module to output the latent codes, which are finally fed to StyleGAN2 to
generate the augmented images. We evaluate the efficacy of our augmented data
approach on two public cross-modal retrieval datasets, in which the promising
experimental results demonstrate the augmented text-image pair data can be
trained together with the original data to boost the image-to-text cross-modal
retrieval performance.
- Abstract(参考訳): 本稿では,テキスト画像のペアを生成するためのオープンな研究課題について検討し,StyleGAN2モデルの隠れセマンティック情報を明らかにすることで,データ拡張のための新たなフレームワークを提案する。
具体的には、まず所定のデータセット上でStyleGAN2モデルをトレーニングします。
次に、実際の画像をStyleGAN2の潜在空間に投影し、潜在コードを取得する。
生成した画像の操作を可能にするために,StyleGAN2遅延符号と対応するテキストキャプション特徴との間のアライメントを学習する潜在空間アライメントモジュールを導入する。
オンラインペア化されたデータ拡張を行う場合、まずランダムなトークン置換によって拡張テキストを生成し、次に拡張テキストを潜時空間アライメントモジュールに渡して遅延コードを生成し、最終的にStyleGAN2に送信し、拡張イメージを生成する。
提案手法の有効性を2つの公開モーダル検索データセットで評価し,有望な実験結果から,画像とテキストの相互モーダル検索性能を高めるために,原データとともに拡張テキストイメージペアデータをトレーニングできることを示した。
関連論文リスト
- Generating Intermediate Representations for Compositional Text-To-Image Generation [16.757550214291015]
2つの段階に基づくテキスト・画像生成のための合成手法を提案する。
第1段階では,テキストに条件付けされた1つ以上の中間表現を生成する拡散に基づく生成モデルを設計する。
第2段階では、これらの表現をテキストとともに、別個の拡散ベース生成モデルを用いて最終出力画像にマッピングする。
論文 参考訳(メタデータ) (2024-10-13T10:24:55Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Text-to-Image Generation via Implicit Visual Guidance and Hypernetwork [38.55086153299993]
我々は、暗黙的な視覚誘導損失と生成目的の組み合わせにより、追加の検索画像を受け入れるテキスト・画像生成のためのアプローチを開発する。
符号化層の重み更新を予測するために,新しいハイパーネットワーク変調型ビジュアルテキスト符号化方式を提案する。
実験の結果,既存のGANモデルよりも優れた検索ビジュアルデータを付加したモデルが導出された。
論文 参考訳(メタデータ) (2022-08-17T19:25:00Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。