論文の概要: Efficient Deduplication and Leakage Detection in Large Scale Image
Datasets with a focus on the CrowdAI Mapping Challenge Dataset
- arxiv url: http://arxiv.org/abs/2304.02296v1
- Date: Wed, 5 Apr 2023 08:36:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-06 13:01:13.779881
- Title: Efficient Deduplication and Leakage Detection in Large Scale Image
Datasets with a focus on the CrowdAI Mapping Challenge Dataset
- Title(参考訳): クラウドAIマッピングチャレンジデータセットに着目した大規模画像データセットの効率の低下と漏洩検出
- Authors: Yeshwanth Kumar Adimoolam, Bodhiswatta Chatterjee, Charalambos
Poullis, Melinos Averkiou
- Abstract要約: 本稿では,知覚的ハッシュ技術を用いて効率的にデータセットを複製するドロップインパイプラインを提案する。
実験では,トレーニング分割中の250k($ sim $90%)近い画像が同一であることを示した。
その結果,60k画像の約56kがトレーニングスプリットに表示され,データ漏洩は93%であった。
- 参考スコア(独自算出の注目度): 5.149242555705579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in deep learning and computer vision have led to
widespread use of deep neural networks to extract building footprints from
remote-sensing imagery. The success of such methods relies on the availability
of large databases of high-resolution remote sensing images with high-quality
annotations. The CrowdAI Mapping Challenge Dataset is one of these datasets
that has been used extensively in recent years to train deep neural networks.
This dataset consists of $ \sim\ $280k training images and $ \sim\ $60k testing
images, with polygonal building annotations for all images. However, issues
such as low-quality and incorrect annotations, extensive duplication of image
samples, and data leakage significantly reduce the utility of deep neural
networks trained on the dataset. Therefore, it is an imperative pre-condition
to adopt a data validation pipeline that evaluates the quality of the dataset
prior to its use. To this end, we propose a drop-in pipeline that employs
perceptual hashing techniques for efficient de-duplication of the dataset and
identification of instances of data leakage between training and testing
splits. In our experiments, we demonstrate that nearly 250k($ \sim\ $90%)
images in the training split were identical. Moreover, our analysis on the
validation split demonstrates that roughly 56k of the 60k images also appear in
the training split, resulting in a data leakage of 93%. The source code used
for the analysis and de-duplication of the CrowdAI Mapping Challenge dataset is
publicly available at https://github.com/yeshwanth95/CrowdAI_Hash_and_search .
- Abstract(参考訳): ディープラーニングとコンピュータビジョンの最近の進歩は、リモートセンシング画像からビルディングフットプリントを抽出するためにディープニューラルネットワークを広く利用した。
このような手法の成功は、高品質なアノテーションを備えた高解像度リモートセンシング画像の大規模データベースが利用可能であることに依存している。
CrowdAI Mapping Challenge Datasetは、近年、ディープニューラルネットワークのトレーニングに広く使用されているデータセットのひとつだ。
このデータセットは$sim\ $280kのトレーニングイメージと$sim\ $60kのテストイメージで構成され、すべてのイメージに対して多角形のビルディングアノテーションを持つ。
しかしながら、低品質で誤ったアノテーション、画像サンプルの広範な重複、データ漏洩といった問題は、データセットでトレーニングされたディープニューラルネットワークの有用性を大幅に低下させる。
したがって、使用前にデータセットの品質を評価するデータ検証パイプラインを採用することは必須の前提条件である。
そこで本研究では,データセットの効率の低下と,トレーニングとテストのスプリット間のデータ漏洩事例の特定に,知覚的ハッシュ技術を用いたドロップインパイプラインを提案する。
実験では,トレーニングスプリット中の250k($ \sim\$90%)画像が同一であることを実証した。
さらに,バリデーション分割の解析結果から,60k画像の約56kがトレーニング分割に現れ,データ漏洩率は93%であった。
CrowdAI Mapping Challengeデータセットの分析と複製に使用されるソースコードは、https://github.com/yeshwanth95/CrowdAI_Hash_and_searchで公開されている。
関連論文リスト
- DataDAM: Efficient Dataset Distillation with Attention Matching [15.300968899043498]
研究者たちは、さまざまなデータセットをまたいだ強力な一般化を維持することによって、ディープラーニングのトレーニングコストを最小化しようと長年努力してきた。
データセットに関する新たな研究は、より大きな実際のデータセットの情報を含む小さな合成セットを作成することで、トレーニングコストの削減を目的としている。
しかし、従来の方法で生成された合成データは、元のトレーニングデータと同様に、配布・差別することが保証されていない。
論文 参考訳(メタデータ) (2023-09-29T19:07:48Z) - Dataset Quantization [72.61936019738076]
大規模データセットを小さなサブセットに圧縮する新しいフレームワークであるデータセット量子化(DQ)を提案する。
DQは、ImageNet-1kのような大規模データセットを最先端圧縮比で蒸留する最初の方法である。
論文 参考訳(メタデータ) (2023-08-21T07:24:29Z) - PromptMix: Text-to-image diffusion models enhance the performance of
lightweight networks [83.08625720856445]
ディープラーニングタスクは、人間のオペレーターに時間がかかりすぎるアノテーションを必要とする。
本稿では,既存のデータセットのサイズを人工的に向上するPromptMixを紹介する。
PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-30T14:15:47Z) - Supervised and Contrastive Self-Supervised In-Domain Representation
Learning for Dense Prediction Problems in Remote Sensing [0.0]
本稿では、リモートセンシングと画像Netデータセットの領域差を解決するために、教師付きおよび自己教師型両方のドメイン表現の有効性について検討する。
自己教師付き事前学習では,SimSiamアルゴリズムは単純であり,膨大な計算資源を必要としない。
その結果,自己教師付き表現学習に空間分解能の高いデータセットを用いることで,下流タスクの性能が向上することが実証された。
論文 参考訳(メタデータ) (2023-01-29T20:56:51Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - AugNet: End-to-End Unsupervised Visual Representation Learning with
Image Augmentation [3.6790362352712873]
我々は、未ラベル画像の集合から画像特徴を学習するための新しいディープラーニングトレーニングパラダイムであるAugNetを提案する。
実験により,低次元空間における画像の表現が可能であることを実証した。
多くのディープラーニングベースの画像検索アルゴリズムとは異なり、我々のアプローチは外部アノテーション付きデータセットへのアクセスを必要としない。
論文 参考訳(メタデータ) (2021-06-11T09:02:30Z) - Data Augmentation for Object Detection via Differentiable Neural
Rendering [71.00447761415388]
注釈付きデータが乏しい場合、堅牢なオブジェクト検出器を訓練することは困難です。
この問題に対処する既存のアプローチには、ラベル付きデータからラベル付きデータを補間する半教師付き学習が含まれる。
オブジェクト検出のためのオフラインデータ拡張手法を導入し、新しいビューでトレーニングデータを意味的に補間する。
論文 参考訳(メタデータ) (2021-03-04T06:31:06Z) - Single Image Cloud Detection via Multi-Image Fusion [23.641624507709274]
アルゴリズム開発における主な課題は、注釈付きトレーニングデータを集めるコストである。
マルチイメージフュージョンの最近の進歩が、シングルイメージクラウド検出のブートストラップにどのように活用できるかを実証する。
我々は、ランドカバー用のピクセルごとのセマンティックラベリングとともに、Sentinel-2画像の大規模なデータセットを収集した。
論文 参考訳(メタデータ) (2020-07-29T22:52:28Z) - Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。
このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。
本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文 参考訳(メタデータ) (2020-07-11T21:11:46Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - Data Consistent CT Reconstruction from Insufficient Data with Learned
Prior Images [70.13735569016752]
偽陰性病変と偽陽性病変を呈示し,CT画像再構成における深層学習の堅牢性について検討した。
本稿では,圧縮センシングと深層学習の利点を組み合わせた画像品質向上のためのデータ一貫性再構築手法を提案する。
提案手法の有効性は,円錐ビームCTにおいて,トランキャットデータ,リミテッドアングルデータ,スパースビューデータで示される。
論文 参考訳(メタデータ) (2020-05-20T13:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。