論文の概要: GlobalWasteData: A Large-Scale, Integrated Dataset for Robust Waste Classification and Environmental Monitoring
- arxiv url: http://arxiv.org/abs/2602.07463v1
- Date: Sat, 07 Feb 2026 09:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.634831
- Title: GlobalWasteData: A Large-Scale, Integrated Dataset for Robust Waste Classification and Environmental Monitoring
- Title(参考訳): GlobalWasteData:ロバスト廃棄物分類と環境モニタリングのための大規模統合データセット
- Authors: Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Tayyaba Asif, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim,
- Abstract要約: GWD(GlobalWasteData)アーカイブは,14のカテゴリにまたがる89,807イメージの大規模データセットである。
このGWDアーカイブは、一貫性のあるラベル付け、ドメインの多様性の改善、よりバランスの取れたクラス表現を提供する。
全体として、このデータセットは、環境モニタリング、リサイクル自動化、廃棄物の識別において、機械学習(ML)アプリケーションのための強力な基盤を提供する。
- 参考スコア(独自算出の注目度): 5.4998857381465465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing amount of waste is a problem for the environment that requires efficient sorting techniques for various kinds of waste. An automated waste classification system is used for this purpose. The effectiveness of these Artificial Intelligence (AI) models depends on the quality and accessibility of publicly available datasets, which provide the basis for training and analyzing classification algorithms. Although several public waste classification datasets exist, they remain fragmented, inconsistent, and biased toward specific environments. Differences in class names, annotation formats, image conditions, and class distributions make it difficult to combine these datasets or train models that generalize well to real world scenarios. To address these issues, we introduce the GlobalWasteData (GWD) archive, a large scale dataset of 89,807 images across 14 main categories, annotated with 68 distinct subclasses. We compile this novel integrated GWD archive by merging multiple publicly available datasets into a single, unified resource. This GWD archive offers consistent labeling, improved domain diversity, and more balanced class representation, enabling the development of robust and generalizable waste recognition models. Additional preprocessing steps such as quality filtering, duplicate removal, and metadata generation further improve dataset reliability. Overall, this dataset offers a strong foundation for Machine Learning (ML) applications in environmental monitoring, recycling automation, and waste identification, and is publicly available to promote future research and reproducibility.
- Abstract(参考訳): 廃棄物の増加は, 各種廃棄物の効率的な選別技術を必要とする環境問題である。
この目的のために自動化された廃棄物分類システムを用いる。
これらの人工知能(AI)モデルの有効性は、公開データセットの品質とアクセシビリティに依存し、分類アルゴリズムのトレーニングと分析の基盤を提供する。
いくつかの公共廃棄物分類データセットが存在するが、それらは断片化され、矛盾し、特定の環境に偏っている。
クラス名、アノテーションフォーマット、イメージ条件、およびクラス分布の違いは、これらのデータセットを組み合わせて、現実のシナリオをうまく一般化するモデルをトレーニングすることを困難にします。
これらの問題に対処するために、68の異なるサブクラスをアノテートした14のカテゴリにわたる89,807の大規模なデータセットであるGWDアーカイブ(GlobalWasteData)を紹介した。
我々は、複数の公開データセットを単一の統一リソースにマージすることで、この新たな統合GWDアーカイブをコンパイルする。
このGWDアーカイブは、一貫性のあるラベル付け、改良されたドメイン多様性、よりバランスの取れたクラス表現を提供し、堅牢で一般化可能な廃棄物認識モデルの開発を可能にする。
品質フィルタリング、重複削除、メタデータ生成などの追加の事前処理ステップにより、データセットの信頼性が向上する。
全体として、このデータセットは、環境モニタリング、リサイクル自動化、廃棄物識別における機械学習(ML)アプリケーションのための強力な基盤を提供し、将来の研究と再現性を促進するために公開されている。
関連論文リスト
- EBES: Easy Benchmarking for Event Sequences [17.277513178760348]
イベントシーケンス(英: Event Sequences、EvS)とは、不規則なサンプリング間隔と分類的特徴と数値的特徴の混合を特徴とするシーケンシャルデータである。
EBESは、シーケンスレベルのターゲットを持つEvS分類のための包括的なベンチマークである。
9つのモダンモデルを実装したオープンソースのPyTorchライブラリとともに、標準化された評価シナリオとプロトコルを備えている。
論文 参考訳(メタデータ) (2024-10-04T13:03:43Z) - WasteGAN: Data Augmentation for Robotic Waste Sorting through Generative Adversarial Networks [7.775894876221921]
ムダGANと呼ばれる新しいGANアーキテクチャに基づくデータ拡張手法を提案する。
提案手法は,ラベル付きサンプルのごく限られたセットから,セマンティックセグメンテーションモデルの性能を向上させることができる。
次に、ムダGAN合成データに基づいて訓練されたモデルから予測される高品質なセグメンテーションマスクを活用し、セグメンテーション・アウェア・グルーピング・ポーズを計算する。
論文 参考訳(メタデータ) (2024-09-25T15:04:21Z) - Automatic Data Curation for Self-Supervised Learning: A Clustering-Based Approach [36.47860223750303]
自己教師付き事前学習のための高品質データセットの自動キュレーションの問題点を考察する。
これらの基準をすべて満たしたクラスタリングに基づく手法を提案する。
我々の方法は、大規模で多様なデータリポジトリ上で、$k$-meansの連続的かつ階層的なアプリケーションを含む。
論文 参考訳(メタデータ) (2024-05-24T14:58:51Z) - SpectralWaste Dataset: Multimodal Data for Waste Sorting Automation [46.178512739789426]
本稿では, 廃棄物処理施設から収集した最初のデータセットであるSpectralWasteについて紹介する。
このデータセットには、分類植物によく見られるいくつかのカテゴリのオブジェクトのラベルが含まれている。
異なるオブジェクトセグメンテーションアーキテクチャを用いたパイプラインを提案し,その代替案をデータセット上で評価する。
論文 参考訳(メタデータ) (2024-03-26T18:39:38Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - VisDA 2022 Challenge: Domain Adaptation for Industrial Waste Sorting [61.52419223232737]
産業廃棄物の選別において、最も大きな課題の1つは入力ストリームの極端な多様性である。
産業廃棄物浄化における領域適応に関するVisDA 2022の課題について紹介する。
論文 参考訳(メタデータ) (2023-03-26T21:38:38Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Simple multi-dataset detection [83.9604523643406]
複数の大規模データセット上で統合検出器を訓練する簡単な方法を提案する。
データセット固有のアウトプットを共通の意味分類に自動的に統合する方法を示す。
私たちのアプローチは手動の分類学の調整を必要としません。
論文 参考訳(メタデータ) (2021-02-25T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。