論文の概要: Towards Realistic Remote Sensing Dataset Distillation with Discriminative Prototype-guided Diffusion
- arxiv url: http://arxiv.org/abs/2601.15829v1
- Date: Thu, 22 Jan 2026 10:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.572822
- Title: Towards Realistic Remote Sensing Dataset Distillation with Discriminative Prototype-guided Diffusion
- Title(参考訳): 差別的原型誘導拡散を用いたリアルなリモートセンシングデータセット蒸留に向けて
- Authors: Yonghao Xu, Pedram Ghamisi, Qihao Weng,
- Abstract要約: 本研究では,リモートセンシング画像解釈の分野におけるデータセット蒸留の概念を紹介する。
我々は、大規模リモートセンシングデータセットをコンパクトで代表的な蒸留データセットに凝縮するために、テキスト・ツー・イメージ拡散モデルを訓練する。
3つの高分解能リモートセンシングシーン分類ベンチマーク実験により,提案手法は下流モデルトレーニングのための現実的で多様なサンプルを抽出できることを示した。
- 参考スコア(独自算出の注目度): 17.847157266396994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed the remarkable success of deep learning in remote sensing image interpretation, driven by the availability of large-scale benchmark datasets. However, this reliance on massive training data also brings two major challenges: (1) high storage and computational costs, and (2) the risk of data leakage, especially when sensitive categories are involved. To address these challenges, this study introduces the concept of dataset distillation into the field of remote sensing image interpretation for the first time. Specifically, we train a text-to-image diffusion model to condense a large-scale remote sensing dataset into a compact and representative distilled dataset. To improve the discriminative quality of the synthesized samples, we propose a classifier-driven guidance by injecting a classification consistency loss from a pre-trained model into the diffusion training process. Besides, considering the rich semantic complexity of remote sensing imagery, we further perform latent space clustering on training samples to select representative and diverse prototypes as visual style guidance, while using a visual language model to provide aggregated text descriptions. Experiments on three high-resolution remote sensing scene classification benchmarks show that the proposed method can distill realistic and diverse samples for downstream model training. Code and pre-trained models are available online (https://github.com/YonghaoXu/DPD).
- Abstract(参考訳): 近年、大規模なベンチマークデータセットが利用可能になったことにより、リモートセンシング画像解釈におけるディープラーニングの顕著な成功を目の当たりにしている。
しかし、この大規模なトレーニングデータへの依存は、(1)高ストレージと計算コスト、(2)データ漏洩のリスク、特にセンシティブなカテゴリに関わる場合の2つの大きな課題をもたらす。
これらの課題に対処するために,本研究では,リモートセンシング画像解釈の分野へのデータセット蒸留の概念を初めて紹介する。
具体的には、大規模なリモートセンシングデータセットをコンパクトで代表的な蒸留データセットに変換するために、テキスト・画像拡散モデルを訓練する。
合成標本の識別品質を向上させるために,事前学習したモデルからの分類整合損失を拡散訓練プロセスに注入し,分類者主導のガイダンスを提案する。
さらに、リモートセンシング画像のリッチな意味複雑性を考慮して、トレーニングサンプル上で潜時空間クラスタリングを行い、視覚的なスタイルのガイダンスとして代表的および多種多様なプロトタイプを選択し、視覚言語モデルを用いて、集約されたテキスト記述を提供する。
3つの高分解能リモートセンシングシーン分類ベンチマーク実験により,提案手法は下流モデルトレーニングのための現実的で多様なサンプルを抽出できることを示した。
コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/YonghaoXu/DPD)。
関連論文リスト
- Leveraging Large-Scale Pretrained Spatial-Spectral Priors for General Zero-Shot Pansharpening [7.37033839561317]
リモートセンシング画像融合のための既存のディープラーニング手法は、目に見えないデータセットに適用した場合、しばしば一般化の貧弱さに悩まされる。
本研究では,大規模なシミュレーションデータセットを活用して,頑健な空間スペクトル前処理を学習する,新しい事前学習戦略を提案する。
事前訓練されたモデルはゼロショットシナリオにおいて優れた結果が得られ、ワンショット設定における最小の実データによる顕著な適応能力を示す。
論文 参考訳(メタデータ) (2025-12-02T10:56:26Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - A generic self-supervised learning (SSL) framework for representation
learning from spectra-spatial feature of unlabeled remote sensing imagery [4.397725469518669]
自己教師付き学習(SSL)では、モデルが桁違いに遅延のないデータから表現を学習することができる。
この研究は、未ラベルデータのスペクトル空間情報の両方から表現を学習できる新しいSSLフレームワークを設計した。
論文 参考訳(メタデータ) (2023-06-27T23:50:43Z) - Training on Thin Air: Improve Image Classification with Generated Data [28.96941414724037]
Diffusion Inversionは、画像分類のための多種多様な高品質なトレーニングデータを生成するための、シンプルで効果的な方法である。
提案手法は,元のデータ分布を捕捉し,画像を安定拡散の潜在空間に反転させることにより,データカバレッジを確保する。
生成した画像が元のデータセットに取って代わることに成功した3つの重要なコンポーネントを特定します。
論文 参考訳(メタデータ) (2023-05-24T16:33:02Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。