論文の概要: Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?
- arxiv url: http://arxiv.org/abs/2503.07890v1
- Date: Mon, 10 Mar 2025 22:15:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:57.883377
- Title: Can Generative Geospatial Diffusion Models Excel as Discriminative Geospatial Foundation Models?
- Title(参考訳): Excelを識別的地空間基盤モデルとして生成可能な地空間拡散モデル
- Authors: Yuru Jia, Valerio Marsocci, Ziyang Gong, Xue Yang, Maarten Vergauwen, Andrea Nascetti,
- Abstract要約: SatDiFuserは拡散に基づく地理空間基盤モデルを識別的RSのための強力な事前学習ツールに変換するフレームワークである。
リモートセンシングベンチマークの実験では、SatDiFuserは最先端のGFMよりも優れていた。
- 参考スコア(独自算出の注目度): 3.5336780194007367
- License:
- Abstract: Self-supervised learning (SSL) has revolutionized representation learning in Remote Sensing (RS), advancing Geospatial Foundation Models (GFMs) to leverage vast unlabeled satellite imagery for diverse downstream tasks. Currently, GFMs primarily focus on discriminative objectives, such as contrastive learning or masked image modeling, owing to their proven success in learning transferable representations. However, generative diffusion models--which demonstrate the potential to capture multi-grained semantics essential for RS tasks during image generation--remain underexplored for discriminative applications. This prompts the question: can generative diffusion models also excel and serve as GFMs with sufficient discriminative power? In this work, we answer this question with SatDiFuser, a framework that transforms a diffusion-based generative geospatial foundation model into a powerful pretraining tool for discriminative RS. By systematically analyzing multi-stage, noise-dependent diffusion features, we develop three fusion strategies to effectively leverage these diverse representations. Extensive experiments on remote sensing benchmarks show that SatDiFuser outperforms state-of-the-art GFMs, achieving gains of up to +5.7% mIoU in semantic segmentation and +7.9% F1-score in classification, demonstrating the capacity of diffusion-based generative foundation models to rival or exceed discriminative GFMs. Code will be released.
- Abstract(参考訳): 自己教師付き学習(SSL)は、リモートセンシング(RS)における表現学習に革命をもたらした。
現在、GFMは主に、伝達可能な表現の学習が成功したことを理由に、対照的な学習やマスク付き画像モデリングのような差別的な目的に焦点を当てている。
しかし、画像生成において、RSタスクに不可欠な多義的な意味を捕捉する可能性を示す生成拡散モデルが、識別的応用に未熟なまま残されている。
生成拡散モデルは、十分な判別力を持つ GFM としても優れているか?
本研究では,拡散型地空間基盤モデルを識別的RSのための強力な事前学習ツールに変換するフレームワークであるSatDiFuserを用いて,この問題に答える。
マルチステージ・ノイズ依存拡散特性を体系的に解析することにより,これらの多彩な表現を効果的に活用するための3つの融合戦略を開発する。
リモートセンシングベンチマークの大規模な実験により、SatDiFuserは最先端のGFMよりも優れており、セマンティックセグメンテーションにおいて最大で+5.7% mIoU、分類において+7.9% F1スコアを獲得し、拡散ベースの生成基盤モデルが差別的GFMと競合するか超える能力を示している。
コードはリリースされる。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - Generative Medical Segmentation [5.4613210257624605]
生成医療 (Generative Medical, GMS) は、生成モデルを利用して画像セグメンテーションを行う新しいアプローチである。
GMSは、画像とそれに対応する接地真実マスクの潜在表現を抽出するために、頑健な事前訓練された視覚基盤モデルを採用している。
GMSの設計により、モデルのトレーニング可能なパラメータが少なくなり、オーバーフィットのリスクが軽減され、その能力が向上する。
論文 参考訳(メタデータ) (2024-03-27T02:16:04Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Exploring Diverse Representations for Open Set Recognition [51.39557024591446]
オープンセット認識(OSR)では、テスト中に未知のサンプルを拒絶しながら、クローズドセットに属するサンプルを分類する必要がある。
現在、生成モデルはOSRの差別モデルよりもよく機能している。
本稿では,多種多様な表現を識別的に学習するMulti-Expert Diverse Attention Fusion(MEDAF)を提案する。
論文 参考訳(メタデータ) (2024-01-12T11:40:22Z) - Do text-free diffusion models learn discriminative visual representations? [39.78043004824034]
本稿では,タスクの両ファミリーを同時に扱うモデルである統一表現学習者の可能性について検討する。
生成タスクの最先端手法である拡散モデル(拡散モデル)を素数候補として開発する。
拡散モデルはGANよりも優れており、融合とフィードバック機構により、差別的タスクのための最先端の教師なし画像表現学習手法と競合することができる。
論文 参考訳(メタデータ) (2023-11-29T18:59:59Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。