論文の概要: Core-Set Selection for Data-efficient Land Cover Segmentation
- arxiv url: http://arxiv.org/abs/2505.01225v1
- Date: Fri, 02 May 2025 12:22:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:20.017061
- Title: Core-Set Selection for Data-efficient Land Cover Segmentation
- Title(参考訳): データ効率の良い土地被覆セグメンテーションのためのコアセット選択
- Authors: Keiller Nogueira, Akram Zaytar, Wanli Ma, Ribana Roscher, Ronny Hänsch, Caleb Robinson, Anthony Ortiz, Simone Nsutezo, Rahul Dodhia, Juan M. Lavista Ferres, Oktay Karakuş, Paul L. Rosin,
- Abstract要約: リモートセンシング画像セグメンテーションデータセットからサンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。
本手法は,3つの土地被覆分類データセットのランダム選択ベースラインに対して,これらのアプローチをベンチマークする。
この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
- 参考スコア(独自算出の注目度): 16.89537279044251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing accessibility of remotely sensed data and the potential of such data to inform large-scale decision-making has driven the development of deep learning models for many Earth Observation tasks. Traditionally, such models must be trained on large datasets. However, the common assumption that broadly larger datasets lead to better outcomes tends to overlook the complexities of the data distribution, the potential for introducing biases and noise, and the computational resources required for processing and storing vast datasets. Therefore, effective solutions should consider both the quantity and quality of data. In this paper, we propose six novel core-set selection methods for selecting important subsets of samples from remote sensing image segmentation datasets that rely on imagery only, labels only, and a combination of each. We benchmark these approaches against a random-selection baseline on three commonly used land cover classification datasets: DFC2022, Vaihingen, and Potsdam. In each of the datasets, we demonstrate that training on a subset of samples outperforms the random baseline, and some approaches outperform training on all available data. This result shows the importance and potential of data-centric learning for the remote sensing domain. The code is available at https://github.com/keillernogueira/data-centric-rs-classification/.
- Abstract(参考訳): リモートセンシングデータのアクセシビリティ向上と、大規模な意思決定を知らせるデータの可能性により、多くの地球観測タスクのためのディープラーニングモデルの開発が進められた。
伝統的に、そのようなモデルは大規模なデータセットでトレーニングされなければならない。
しかし、より大きなデータセットがより良い結果をもたらすという一般的な仮定は、データ分布の複雑さ、バイアスやノイズを導入する可能性、膨大なデータセットの処理と保存に必要な計算資源を見落としてしまう傾向にある。
したがって、有効な解決策は、データの量と品質の両方を考慮するべきである。
本稿では,画像のみに依存し,ラベルのみに依存したリモートセンシング画像分割データセットから,サンプルの重要なサブセットを選択するための6つの新しいコアセット選択手法を提案する。
DFC2022, Vaihingen, Potsdamの3種類の土地被覆分類データセットをランダム選択ベースラインと比較した。
各データセットにおいて、サンプルのサブセットでのトレーニングがランダムなベースラインよりも優れており、利用可能なすべてのデータでのトレーニングよりも優れたアプローチがいくつかあることを実証する。
この結果は,リモートセンシング領域におけるデータ中心学習の重要性と可能性を示している。
コードはhttps://github.com/keillernogueira/data-centric-rs-classification/で公開されている。
関連論文リスト
- Active Learning from Scene Embeddings for End-to-End Autonomous Driving [30.667451458189902]
エンドツーエンドのディープラーニングモデルのトレーニングには、大量のラベル付きデータが必要です。
本稿では,SEADと呼ばれるベクトル化シーンレベルの特徴に依存する能動的学習フレームワークを提案する。
実験によると、完全なデータセットで達成できることに近いパフォーマンスを達成するには、nuScenesトレーニングデータの30%しか必要ありません。
論文 参考訳(メタデータ) (2025-03-14T03:56:22Z) - Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison [9.324894567200582]
選好データセットを、スケール、ラベルノイズ、情報内容の3つの視点で体系的に研究する。
我々の研究は、RLHFのトレーニング効率と反復的なデータ収集を支援する視点を提供することで、アライメントに対するデータ中心のアプローチに向けた第一歩です。
論文 参考訳(メタデータ) (2024-09-15T03:55:03Z) - TAGCOS: Task-agnostic Gradient Clustered Coreset Selection for Instruction Tuning Data [29.45013725650798]
完全なデータセットに匹敵するパフォーマンスを達成する命令データセットのサブセットを抽出することが不可欠である。
タスク非依存のグラディエントクラスタ化コレセット選択(TAGCOS)を提案する。
具体的には、サンプル勾配をデータ表現として利用し、類似したデータをグループ化するためにクラスタリングを行い、コアセット選択に効率的なグリーディアルゴリズムを適用する。
論文 参考訳(メタデータ) (2024-07-21T17:59:20Z) - JSCDS: A Core Data Selection Method with Jason-Shannon Divergence for Caries RGB Images-Efficient Learning [2.508255511130695]
ディープラーニングモデルのパフォーマンスは、高品質なデータに依存し、相当なトレーニングリソースを必要とする。
本稿では,Jensen-Shannon Divergence (JSCDS) を用いたコアデータ選択手法を提案する。
JSCDSは、予測性能と時間消費において、他のデータ選択方法よりも優れています。
論文 参考訳(メタデータ) (2024-06-29T08:19:25Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。