論文の概要: DiffusionSat: A Generative Foundation Model for Satellite Imagery
- arxiv url: http://arxiv.org/abs/2312.03606v2
- Date: Sat, 25 May 2024 16:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 08:25:17.014865
- Title: DiffusionSat: A Generative Foundation Model for Satellite Imagery
- Title(参考訳): DiffusionSat: 衛星画像のための生成基盤モデル
- Authors: Samar Khanna, Patrick Liu, Linqi Zhou, Chenlin Meng, Robin Rombach, Marshall Burke, David Lobell, Stefano Ermon,
- Abstract要約: 現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
- 参考スコア(独自算出の注目度): 63.2807119794691
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have achieved state-of-the-art results on many modalities including images, speech, and video. However, existing models are not tailored to support remote sensing data, which is widely used in important applications including environmental monitoring and crop-yield prediction. Satellite images are significantly different from natural images -- they can be multi-spectral, irregularly sampled across time -- and existing diffusion models trained on images from the Web do not support them. Furthermore, remote sensing data is inherently spatio-temporal, requiring conditional generation tasks not supported by traditional methods based on captions or images. In this paper, we present DiffusionSat, to date the largest generative foundation model trained on a collection of publicly available large, high-resolution remote sensing datasets. As text-based captions are sparsely available for satellite images, we incorporate the associated metadata such as geolocation as conditioning information. Our method produces realistic samples and can be used to solve multiple generative tasks including temporal generation, superresolution given multi-spectral inputs and in-painting. Our method outperforms previous state-of-the-art methods for satellite image generation and is the first large-scale generative foundation model for satellite imagery. The project website can be found here: https://samar-khanna.github.io/DiffusionSat/
- Abstract(参考訳): 拡散モデルは、画像、音声、ビデオを含む多くのモダリティに対して最先端の結果を得た。
しかし、既存のモデルはリモートセンシングデータをサポートするように調整されておらず、環境モニタリングや収穫量予測といった重要な応用に広く利用されている。
衛星画像は自然画像とは大きく異なる -- マルチスペクトルで、時間をかけて不規則にサンプリングできる -- であり、Webの画像でトレーニングされた既存の拡散モデルはそれらをサポートしない。
さらに、リモートセンシングデータは本質的に時空間であり、キャプションや画像に基づく従来の手法ではサポートされない条件生成タスクを必要とする。
本稿では,DiffusionSatについて紹介する。DiffusionSatは,現在利用可能な大規模で高解像度なリモートセンシングデータセットの集合に基づいてトレーニングされている,最大の生成基盤モデルである。
衛星画像にはテキストベースのキャプションが少ないため、位置情報などの関連メタデータを条件情報として組み込む。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
提案手法は,衛星画像生成における従来の最先端手法よりも優れており,衛星画像の大規模生成基盤モデルとしては初めてのものである。
プロジェクトのWebサイトは以下の通りである。
関連論文リスト
- GEOBIND: Binding Text, Image, and Audio through Satellite Images [7.291750095728984]
我々は、位置情報の衛星画像からテキスト、画像、音声など複数のモードを推測できるディープラーニングモデルGeoBindを提案する。
トレーニングの結果,衛星画像,地上画像,音声,テキストなど,複数の種類のデータを用いた共同埋め込み空間が得られた。
論文 参考訳(メタデータ) (2024-04-17T20:13:37Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diffusion Models for Interferometric Satellite Aperture Radar [73.01013149014865]
確率拡散モデル (Probabilistic Diffusion Models, PDMs) は、最近、非常に有望な生成モデルのクラスとして登場した。
ここでは、PDMを活用して、レーダーベースの衛星画像データセットを複数生成する。
PDMは複雑で現実的な構造を持つ画像を生成することに成功したが、サンプリング時間は依然として問題である。
論文 参考訳(メタデータ) (2023-08-31T16:26:17Z) - Generate Your Own Scotland: Satellite Image Generation Conditioned on
Maps [5.49341063007719]
本研究では,現在最先端の事前学習拡散モデルが地図データ上で条件付けされ,現実的な衛星画像が生成可能であることを示す。
2つの大きなOpenStreetMapイメージのデータセットと、メインランド・スコットランドとセントラル・ベルト地域の衛星ビューを提供する。
論文 参考訳(メタデータ) (2023-08-31T11:44:40Z) - Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep
Learning [77.34726150561087]
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・大規模時間データセットを作成するためのアプローチを提案する。
我々は、異なる種類の植生を分離できる畳み込みニューラルネットワーク(CNN)モデルを使用する。
論文 参考訳(メタデータ) (2022-09-28T18:51:59Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Boundary Regularized Building Footprint Extraction From Satellite Images
Using Deep Neural Network [6.371173732947292]
本稿では,1つの衛星画像から構築事例を共同で検出し,ノイズの多い建物の境界形状を規則化する,新しいディープニューラルネットワークを提案する。
本モデルでは,オブジェクトの局所化,認識,セマンティックラベリング,幾何学的形状抽出を同時に行うことができる。
論文 参考訳(メタデータ) (2020-06-23T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。