論文の概要: RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models
- arxiv url: http://arxiv.org/abs/2512.23239v2
- Date: Mon, 05 Jan 2026 09:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 18:31:34.352333
- Title: RS-Prune: Training-Free Data Pruning at High Ratios for Efficient Remote Sensing Diffusion Foundation Models
- Title(参考訳): RS-Prune:効率的なリモートセンシング拡散基礎モデルのための高比のトレーニングフリーデータプルーニング
- Authors: Fan Wei, Runmin Dong, Yushan Lai, Yixiang Yang, Zhaoyang Luo, Jinxiao Zhang, Miao Yang, Shuai Yuan, Jiyao Zhao, Bin Luo, Haohuan Fu,
- Abstract要約: 拡散型リモートセンシング(RS)生成基盤モデルは、多量のグローバルな代表データに依存している。
本稿では,高プルーニング率で高品質なサブセットを迅速に選択する,トレーニングフリーな2段階データプルーニング手法を提案する。
実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 14.093802378976315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based remote sensing (RS) generative foundation models are cruial for downstream tasks. However, these models rely on large amounts of globally representative data, which often contain redundancy, noise, and class imbalance, reducing training efficiency and preventing convergence. Existing RS diffusion foundation models typically aggregate multiple classification datasets or apply simplistic deduplication, overlooking the distributional requirements of generation modeling and the heterogeneity of RS imagery. To address these limitations, we propose a training-free, two-stage data pruning approach that quickly select a high-quality subset under high pruning ratios, enabling a preliminary foundation model to converge rapidly and serve as a versatile backbone for generation, downstream fine-tuning, and other applications. Our method jointly considers local information content with global scene-level diversity and representativeness. First, an entropy-based criterion efficiently removes low-information samples. Next, leveraging RS scene classification datasets as reference benchmarks, we perform scene-aware clustering with stratified sampling to improve clustering effectiveness while reducing computational costs on large-scale unlabeled data. Finally, by balancing cluster-level uniformity and sample representativeness, the method enables fine-grained selection under high pruning ratios while preserving overall diversity and representativeness. Experiments show that, even after pruning 85\% of the training data, our method significantly improves convergence and generation quality. Furthermore, diffusion foundation models trained with our method consistently achieve state-of-the-art performance across downstream tasks, including super-resolution and semantic image synthesis. This data pruning paradigm offers practical guidance for developing RS generative foundation models.
- Abstract(参考訳): 拡散型リモートセンシング(RS)生成基盤モデルは下流タスクには致命的である。
しかし、これらのモデルは、冗長性、ノイズ、クラス不均衡を多く含み、訓練効率を低下させ、収束を防止している、膨大な量のグローバルな代表データに依存している。
既存のRS拡散基盤モデルは通常、複数の分類データセットを集約するか、単純な重複を適用し、生成モデルの分布要求とRS画像の不均一性を見越す。
これらの制約に対処するため,我々は,高プルーニング比下で高品質なサブセットを迅速に選択し,予備基礎モデルを迅速に収束させ,生成,下流微調整,その他のアプリケーションのための汎用的なバックボーンとして機能させる,トレーニングフリーな2段階データプルーニング手法を提案する。
本研究では,地域情報コンテンツとグローバルなシーンレベルの多様性と代表性について共同で検討する。
まず、エントロピーに基づく基準により、低情報サンプルを効率的に除去する。
次に、RSシーン分類データセットを基準ベンチマークとして、階層化サンプリングによるシーン認識クラスタリングを行い、大規模未ラベルデータの計算コストを削減し、クラスタリング効率を向上させる。
最後に,クラスタレベルの均一性とサンプル代表性のバランスをとることにより,全体の多様性と代表性を維持しつつ,高いプルーニング比下でのきめ細かい選択を可能にする。
実験の結果, トレーニングデータの85%を刈り取った後も, コンバージェンスと生成品質が著しく向上することがわかった。
さらに,本手法で訓練した拡散基礎モデルは,超解像・意味画像合成を含む下流タスクにおける最先端性能を一貫して達成する。
このデータプルーニングパラダイムは、RS生成基盤モデルを開発するための実践的なガイダンスを提供する。
関連論文リスト
- Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - LD-RPS: Zero-Shot Unified Image Restoration via Latent Diffusion Recurrent Posterior Sampling [38.700993166492495]
本稿では,事前学習した潜伏拡散モデルを用いた再帰サンプリングによるデータセットフリーで統一的な手法を提案する。
本手法では,マルチモーダル理解モデルを用いて,タスクブレンド条件下で生成モデルにセマンティックな事前情報を提供する。
論文 参考訳(メタデータ) (2025-07-01T14:25:09Z) - RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。
これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文 参考訳(メタデータ) (2025-06-24T22:35:51Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。