論文の概要: Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern
Hopfield Networks
- arxiv url: http://arxiv.org/abs/2208.04441v1
- Date: Mon, 8 Aug 2022 22:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:38:59.326270
- Title: Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern
Hopfield Networks
- Title(参考訳): Txt2Img-MHN:現代ホップフィールドネットワークを用いたテキストからのリモートセンシング画像生成
- Authors: Yonghao Xu, Weikang Yu, Pedram Ghamisi, Michael Kopp, and Sepp
Hochreiter
- Abstract要約: 本稿では,リアルタイムなリモートセンシング画像を生成するために,新しいテキスト・ツー・イメージのホップフィールドネットワーク(Txt2Img-MHN)を提案する。
生成した画像のリアリズムとセマンティック一貫性をよりよく評価するため,実リモートセンシングデータを用いてゼロショット分類を行う。
提案したTxt2Img-MHNはよりリアルなリモートセンシング画像を生成することができる。
- 参考スコア(独自算出の注目度): 15.222336520583012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The synthesis of high-resolution remote sensing images based on text
descriptions has great potential in many practical application scenarios.
Although deep neural networks have achieved great success in many important
remote sensing tasks, generating realistic remote sensing images from text
descriptions is still very difficult. To address this challenge, we propose a
novel text-to-image modern Hopfield network (Txt2Img-MHN). The main idea of
Txt2Img-MHN is to conduct hierarchical prototype learning on both text and
image embeddings with modern Hopfield layers. Instead of directly learning
concrete but highly diverse text-image joint feature representations for
different semantics, Txt2Img-MHN aims to learn the most representative
prototypes from text-image embeddings, achieving a coarse-to-fine learning
strategy. These learned prototypes can then be utilized to represent more
complex semantics in the text-to-image generation task. To better evaluate the
realism and semantic consistency of the generated images, we further conduct
zero-shot classification on real remote sensing data using the classification
model trained on synthesized images. Despite its simplicity, we find that the
overall accuracy in the zero-shot classification may serve as a good metric to
evaluate the ability to generate an image from text. Extensive experiments on
the benchmark remote sensing text-image dataset demonstrate that the proposed
Txt2Img-MHN can generate more realistic remote sensing images than existing
methods. Code and pre-trained models are available online
(https://github.com/YonghaoXu/Txt2Img-MHN).
- Abstract(参考訳): テキスト記述に基づく高解像度リモートセンシング画像の合成は多くの応用シナリオにおいて大きな可能性を秘めている。
深層ニューラルネットワークは多くの重要なリモートセンシングタスクで大きな成功を収めているが、テキスト記述からリアルなリモートセンシング画像を生成することは依然として非常に難しい。
そこで本研究では,新しいテキスト・ツー・イメージ型ホップフィールドネットワーク(Txt2Img-MHN)を提案する。
Txt2Img-MHNの主な考え方は、テキストと画像の埋め込みを現代的なホップフィールド層で階層的に学習することである。
txt2img-mhnは、テキスト画像埋め込みから最も代表的なプロトタイプを学習し、粒度の粗い学習戦略を達成することを目的としている。
これらの学習されたプロトタイプは、テキストから画像への生成タスクでより複雑な意味を表現するために利用することができる。
生成画像のリアリズムと意味的一貫性をよりよく評価するために,合成画像に訓練された分類モデルを用いて,実リモートセンシングデータに対してゼロショット分類を行う。
その単純さにもかかわらず、ゼロショット分類の全体的な正確さは、テキストから画像を生成する能力を評価する良い指標になり得る。
提案したTxt2Img-MHNは既存の方法よりもリアルなリモートセンシング画像を生成することができる。
コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/YonghaoXu/Txt2Img-MHN)。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial Awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつ大域的な視覚タスクに有効な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - ImaginaryNet: Learning Object Detectors without Real Images and
Annotations [66.30908705345973]
本稿では,事前学習された言語モデルとテキスト・ツー・イメージモデルを組み合わせた画像合成フレームワークを提案する。
合成画像とクラスラベルを使用することで、弱い教師付きオブジェクト検出を利用してImaginary-Supervised Object Detectionを実現できる。
実験により、ImaginaryNetは、実際のデータに基づいてトレーニングされた同じバックボーンの弱い監督を受けたものと比較して、ISODで約70%の性能が得られることが示された。
論文 参考訳(メタデータ) (2022-10-13T10:25:22Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。