論文の概要: Scalable Data Balancing for Unlabeled Satellite Imagery
- arxiv url: http://arxiv.org/abs/2107.03227v1
- Date: Wed, 7 Jul 2021 13:58:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 19:30:09.023536
- Title: Scalable Data Balancing for Unlabeled Satellite Imagery
- Title(参考訳): ラベルなし衛星画像のためのスケーラブルなデータバランシング
- Authors: Deep Patel, Erin Gao, Anirudh Koul, Siddha Ganju, Meher Anand Kasam
- Abstract要約: ラベルのないデータのバランスをとるための新しい反復法を提案する。
本手法は画像ラベルのプロキシとして画像埋め込みを利用してデータのバランスを保ち、最終的にトレーニングされた場合、全体的な精度が向上する。
- 参考スコア(独自算出の注目度): 1.1704486274859414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data imbalance is a ubiquitous problem in machine learning. In large scale
collected and annotated datasets, data imbalance is either mitigated manually
by undersampling frequent classes and oversampling rare classes, or planned for
with imputation and augmentation techniques. In both cases balancing data
requires labels. In other words, only annotated data can be balanced.
Collecting fully annotated datasets is challenging, especially for large scale
satellite systems such as the unlabeled NASA's 35 PB Earth Imagery dataset.
Although the NASA Earth Imagery dataset is unlabeled, there are implicit
properties of the data source that we can rely on to hypothesize about its
imbalance, such as distribution of land and water in the case of the Earth's
imagery. We present a new iterative method to balance unlabeled data. Our
method utilizes image embeddings as a proxy for image labels that can be used
to balance data, and ultimately when trained increases overall accuracy.
- Abstract(参考訳): データ不均衡は機械学習におけるユビキタスな問題である。
大規模な収集と注釈付きデータセットでは、頻繁なクラスをアンサンプリングし、まれなクラスをオーバーサンプリングすることで、データ不均衡を手作業で緩和するか、インプテーションと拡張技術で計画する。
両方のケースでデータのバランスをとるにはラベルが必要です。
言い換えれば、注釈付きデータだけがバランスをとることができる。
完全な注釈付きデータセットの収集は、特にnasaの35pb地球画像データセットのような大規模衛星システムでは困難である。
nasaの地球画像データセットはラベルされていないが、地球画像の場合の土地と水の分布など、その不均衡についての仮説に依存するデータソースの暗黙的な特性がある。
ラベルなしデータのバランスをとるための新しい反復法を提案する。
本手法は画像ラベルのプロキシとして画像埋め込みを利用してデータのバランスを保ち、最終的にトレーニングされた場合、全体的な精度が向上する。
関連論文リスト
- Edge-guided and Class-balanced Active Learning for Semantic Segmentation of Aerial Images [32.82283290734487]
アクティブラーニングはデータアノテーションのコストを削減するための有望な方法である。
従来のALメソッドは、不合理なラベリングユニットとクラス不均衡の無視のために理想的ではない。
提案手法は3つのベンチマークデータセットの最先端手法と比較して11.2%以上のゲインを達成している。
論文 参考訳(メタデータ) (2024-05-28T11:39:36Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - DatasetEquity: Are All Samples Created Equal? In The Quest For Equity
Within Datasets [4.833815605196965]
本稿では,機械学習におけるデータ不均衡に対処する新しい手法を提案する。
深い知覚埋め込みとクラスタリングを用いて、画像の外観に基づいてサンプル確率を計算する。
次に、これらの可能性を使って、提案された$bf Generalized Focal Loss$関数で、トレーニング中にサンプルを異なる重さで測定する。
論文 参考訳(メタデータ) (2023-08-19T02:11:49Z) - Semi-Supervised Graph Imbalanced Regression [17.733488328772943]
本稿では,学習データを段階的にバランスさせ,自己学習によるモデルバイアスを低減するための半教師付きフレームワークを提案する。
その結果,提案フレームワークは予測されたグラフ特性の誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2023-05-20T04:11:00Z) - Land Cover and Land Use Detection using Semi-Supervised Learning [0.0]
ラベルを作成し、適切な精度でモデルをトレーニングします。
我々は、EuroSAT、UCM、WHU-RS19という、さまざまなタイプの不均衡衛星画像データセットを使用している。
我々のアプローチはラベル付きデータの要求を大幅に減らし、代替手法を一貫して上回り、データセットのクラス不均衡に起因するモデルバイアスの問題を解決する。
論文 参考訳(メタデータ) (2022-12-21T17:36:28Z) - ReGrAt: Regularization in Graphs using Attention to handle class
imbalance [14.322295231579073]
本研究では,ノード分類の不均衡に注意ネットワークがどう取り組むかを検討する。
また、正規化器を用いてマイノリティノードにより大きな重み付けを割り当てることで、この不均衡を緩和する。
我々は、いくつかの標準引用ベンチマークデータセットの既存の手法よりも、最先端の成果を達成している。
論文 参考訳(メタデータ) (2022-11-27T09:04:29Z) - An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised
Learning [103.65758569417702]
半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。
我々は、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定について検討する。
我々は、ラベル付きデータを擬似ラベルで単純に補うことで、データの不均衡に取り組む単純なベースライン、SimiSについて研究する。
論文 参考訳(メタデータ) (2022-11-20T21:18:41Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - On the Importance of Adaptive Data Collection for Extremely Imbalanced
Pairwise Tasks [94.23884467360521]
我々は、QQPとWikiQAでトレーニングされた最先端技術モデルが、現実的に不均衡なテストデータで評価された場合、それぞれ平均精度が2.4%しか持たないことを示した。
より有益なネガティブな例でバランスのとれたトレーニングデータを作成することで、アクティブラーニングは平均精度をQQPで32.5%、WikiQAで20.1%に大幅に改善する。
論文 参考訳(メタデータ) (2020-10-10T21:56:27Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。