論文の概要: Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a Foundation Model
- arxiv url: http://arxiv.org/abs/2501.00895v1
- Date: Wed, 01 Jan 2025 16:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:14:21.027879
- Title: Text2Earth: Unlocking Text-driven Remote Sensing Image Generation with a Global-Scale Dataset and a Foundation Model
- Title(参考訳): Text2Earth:グローバルスケールデータセットと基礎モデルによるテキスト駆動型リモートセンシング画像生成のロック解除
- Authors: Chenyang Liu, Keyan Chen, Rui Zhao, Zhengxia Zou, Zhenwei Shi,
- Abstract要約: 本稿では,Git-10MデータセットとText2Earthファウンデーションモデルという,2つの重要なコントリビューションを示す。
Git-10Mは、1000万のイメージテキストペアからなる、世界規模のイメージテキストデータセットである。
我々は,グローバルなリモートセンシングシーンをモデル化するための拡散フレームワークに基づく13億のパラメータ生成基盤モデルであるText2Earthを提案する。
- 参考スコア(独自算出の注目度): 27.637853981925705
- License:
- Abstract: Generative foundation models have advanced large-scale text-driven natural image generation, becoming a prominent research trend across various vertical domains. However, in the remote sensing field, there is still a lack of research on large-scale text-to-image (text2image) generation technology. Existing remote sensing image-text datasets are small in scale and confined to specific geographic areas and scene types. Besides, existing text2image methods have struggled to achieve global-scale, multi-resolution controllable, and unbounded image generation. To address these challenges, this paper presents two key contributions: the Git-10M dataset and the Text2Earth foundation model. Git-10M is a global-scale image-text dataset comprising 10 million image-text pairs, 5 times larger than the previous largest one. The dataset covers a wide range of geographic scenes and contains resolution information, significantly surpassing existing datasets in both size and diversity. Building on Git-10M, we propose Text2Earth, a 1.3 billion parameter generative foundation model based on the diffusion framework to model global-scale remote sensing scenes. Text2Earth integrates a resolution guidance mechanism, enabling users to specify image resolutions. A dynamic condition adaptation strategy is proposed for training and inference to improve image quality. Text2Earth excels in zero-shot text2image generation and demonstrates robust generalization and flexibility across multiple tasks, including unbounded scene construction, image editing, and cross-modal image generation. This robust capability surpasses previous models restricted to the basic fixed size and limited scene types. On the previous benchmark dataset, Text2Earth outperforms previous models with an improvement of +26.23 FID and +20.95% Zero-shot Cls-OA metric.Our project page is \url{https://chen-yang-liu.github.io/Text2Earth}
- Abstract(参考訳): 生成基盤モデルは、大規模テキスト駆動の自然画像生成を進歩させ、様々な垂直領域で顕著な研究トレンドとなっている。
しかし、リモートセンシングの分野では、大規模なテキスト・ツー・イメージ(text2image)生成技術の研究は依然として不足している。
既存のリモートセンシング画像テキストデータセットは規模が小さく、特定の地理的領域やシーンタイプに限定されている。
さらに、既存のtext2image 法は、グローバルスケール、マルチレゾリューション制御可能、および無制限の画像生成を実現するのに苦労している。
これらの課題に対処するため、Git-10MデータセットとText2Earthファウンデーションモデルという、2つの重要なコントリビューションを提示した。
Git-10Mは、1000万のイメージテキストペアからなる、世界規模のイメージテキストデータセットである。
データセットは広い範囲の地理的シーンをカバーし、解像度情報を含み、サイズと多様性の両方において既存のデータセットを大幅に上回っている。
Git-10M上に構築されたText2Earthは、拡散フレームワークに基づく13億のパラメータ生成基盤モデルで、グローバルなリモートセンシングシーンをモデル化する。
Text2Earthは解像度誘導機構を統合しており、ユーザーは画像の解像度を指定できる。
画像品質向上のためのトレーニングと推論のための動的条件適応戦略を提案する。
Text2Earthはゼロショットのtext2image 生成に優れ、無制限のシーン構成、画像編集、クロスモーダル画像生成など、複数のタスクにまたがる堅牢な一般化と柔軟性を示す。
この堅牢な機能は、基本的な固定サイズと限られたシーンタイプに制限された以前のモデルを上回る。
前回のベンチマークデータセットでは、Text2Earthは、+26.23 FIDと+20.95%のZero-shot Cls-OAメトリックの改善により、以前のモデルよりもパフォーマンスが向上した。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - xT: Nested Tokenization for Larger Context in Large Images [79.37673340393475]
xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
論文 参考訳(メタデータ) (2024-03-04T10:29:58Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - Learning to Generate Semantic Layouts for Higher Text-Image
Correspondence in Text-to-Image Synthesis [37.32270579534541]
利用可能なセマンティックレイアウトを活用することで,テキスト画像の対応性を向上させる新しい手法を提案する。
提案手法は,Multi-Modal CelebA-HQおよびCityscapesデータセットにおける既存のテキスト・画像生成手法と比較して,高いテキスト・画像対応を実現する。
論文 参考訳(メタデータ) (2023-08-16T05:59:33Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z) - WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual
Machine Learning [19.203716881791312]
ウィキペディアベースの画像テキスト(WIT)データセットを紹介する。
witは3760万のエンティティリッチな画像テキスト例のキュレーションセットで構成されており、108のwikipedia言語で1150万のユニークな画像がある。
WITは3倍の画像-テキストサンプル数で最大のマルチモーダルデータセットです。
論文 参考訳(メタデータ) (2021-03-02T18:13:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。