論文の概要: Environment-Aware Satellite Image Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.24875v1
- Date: Mon, 29 Sep 2025 14:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.062839
- Title: Environment-Aware Satellite Image Generation with Diffusion Models
- Title(参考訳): 拡散モデルを用いた環境対応衛星画像生成
- Authors: Nikos Kostagiolas, Pantelis Georgiades, Yannis Panagakis, Mihalis A. Nicolaou,
- Abstract要約: 拡散に基づく基礎モデルは、最近、生成モデリングの分野で多くの注目を集めている。
従来の手法は、限られた環境条件に依存し、欠落や破損したデータに悩まされ、しばしば生成された出力にユーザの意図を確実に反映できない。
本稿では,3つの異なる制御信号の組み合わせを条件に,衛星画像の生成が可能な,環境条件に基づく新しい拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 15.74910870109499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based foundation models have recently garnered much attention in the field of generative modeling due to their ability to generate images of high quality and fidelity. Although not straightforward, their recent application to the field of remote sensing signaled the first successful trials towards harnessing the large volume of publicly available datasets containing multimodal information. Despite their success, existing methods face considerable limitations: they rely on limited environmental context, struggle with missing or corrupted data, and often fail to reliably reflect user intentions in generated outputs. In this work, we propose a novel diffusion model conditioned on environmental context, that is able to generate satellite images by conditioning from any combination of three different control signals: a) text, b) metadata, and c) visual data. In contrast to previous works, the proposed method is i) to our knowledge, the first of its kind to condition satellite image generation on dynamic environmental conditions as part of its control signals, and ii) incorporating a metadata fusion strategy that models attribute embedding interactions to account for partially corrupt and/or missing observations. Our method outperforms previous methods both qualitatively (robustness to missing metadata, higher responsiveness to control inputs) and quantitatively (higher fidelity, accuracy, and quality of generations measured using 6 different metrics) in the trials of single-image and temporal generation. The reported results support our hypothesis that conditioning on environmental context can improve the performance of foundation models for satellite imagery, and render our model a promising candidate for usage in downstream tasks. The collected 3-modal dataset is to our knowledge, the first publicly-available dataset to combine data from these three different mediums.
- Abstract(参考訳): 拡散に基づく基礎モデルは最近、高品質で忠実な画像を生成する能力により、生成モデリングの分野で大きな注目を集めている。
簡単なものではないが、リモートセンシングの分野での最近の応用は、マルチモーダル情報を含む公開データセットの大量利用に向けた最初の試みを成功に導いた。
その成功にもかかわらず、既存の手法は、限られた環境環境に依存し、欠落や破損したデータに悩まされ、しばしば生成されたアウトプットにおけるユーザの意図を確実に反映できないという、かなりの制限に直面している。
本研究では,3つの異なる制御信号の組み合わせを条件づけることで,衛星画像を生成することができる環境条件に基づく新しい拡散モデルを提案する。
text (複数形 texts)
b)メタデータ,及び
c) 視覚データ。
従来の研究とは対照的に,提案手法は提案手法である。
一 私たちの知る限り、その制御信号の一部として、動的環境条件に衛星画像を生成するための第一種
二 部分的に腐敗した又は欠落した観察を考慮に入れ、埋め込み相互作用の属性をモデル化するメタデータ融合戦略を取り入れること。
提案手法は, 単一画像と時間生成の試行において, 従来手法よりも質的(メタデータの欠如, 制御入力に対する応答性の向上) かつ定量的(6つの異なる指標を用いて測定された世代毎の忠実度, 精度, 品質) に優れていた。
以上の結果から,衛星画像の基礎モデルの性能は,環境条件が向上し,下流タスクの活用に期待できる候補となるのではないか,という仮説が得られた。
収集した3つのモーダルデータセットは、これらの3つの異なる媒体からのデータを組み合わせた最初の公開データセットである、私たちの知識に対するものです。
関連論文リスト
- So-Fake: Benchmarking and Explaining Social Media Image Forgery Detection [75.79507634008631]
So-Fake-Setは、200万以上の高品質な画像、多様な生成源、35の最先端生成モデルを用いて合成された画像を備えたソーシャルメディア指向のデータセットである。
本稿では,高精度な偽造検出,高精度な位置推定,解釈可能な視覚論理による説明可能な推論に強化学習を利用する高度な視覚言語フレームワークであるSo-Fake-R1を提案する。
論文 参考訳(メタデータ) (2025-05-24T11:53:35Z) - SynergyAmodal: Deocclude Anything with Text Control [27.027748040959025]
画像の隠蔽は、画像の隠蔽されたインスタンスの見えない領域(e, shape, appearance)を復元することを目的としている。
In-theld amodal データセットを包括的形状と外観アノテーションで共合成する新しいフレームワーク SynergyAmodal を提案する。
論文 参考訳(メタデータ) (2025-04-28T06:04:17Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - DiffusionSat: A Generative Foundation Model for Satellite Imagery [63.2807119794691]
現在、DiffusionSatは、現在利用可能な大規模な高解像度リモートセンシングデータセットのコレクションに基づいてトレーニングされている、最大の生成基盤モデルである。
提案手法は, リアルタイムなサンプルを作成し, 時間生成, マルチスペクトル入力の超解像, インペイントなどの複数の生成課題を解くのに利用できる。
論文 参考訳(メタデータ) (2023-12-06T16:53:17Z) - D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction [74.49121940466675]
モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
論文 参考訳(メタデータ) (2023-11-23T20:14:50Z) - Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models [13.019535928387702]
本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。
定性的かつ定量的な結果は,難解なシナリオ下で提案したPCDMの一貫性と光現実性を示すものである。
論文 参考訳(メタデータ) (2023-10-10T05:13:17Z) - SatDM: Synthesizing Realistic Satellite Image with Semantic Layout
Conditioning using Diffusion Models [0.0]
Denoising Diffusion Probabilistic Models (DDPM) は意味的レイアウトから現実的なイメージを合成する上で大きな可能性を証明している。
本稿では,セマンティックマップを用いて高品質で多様な衛星画像を生成する条件付きDDPMモデルを提案する。
提案モデルの有効性は,本研究の文脈内で導入した詳細なラベル付きデータセットを用いて検証する。
論文 参考訳(メタデータ) (2023-09-28T19:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。