論文の概要: "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset
- arxiv url: http://arxiv.org/abs/2412.16473v1
- Date: Sat, 21 Dec 2024 04:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:50.780646
- Title: "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset
- Title(参考訳): ScatSpotter"2024 -- 分散型犬のうんち検出データセット
- Authors: Jon Crall,
- Abstract要約: 現在42ギガバイトの犬糞の電話画像のデータセットを新たに導入しました。
6kのフル解像度イメージと4kの詳細なポリゴンアノテーションがある。
画像の収集とアノテーションは2020年後半に開始され、データセットは約1GB成長している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We introduce a new -- currently 42 gigabyte -- ``living'' dataset of phone images of dog feces, annotated with manually drawn or AI-assisted polygon labels. There are 6k full resolution images and 4k detailed polygon annotations. The collection and annotation of images started in late 2020 and the dataset grows by roughly 1GB a month. We train VIT and MaskRCNN baseline models to explore the difficulty of the dataset. The best model achieves a pixelwise average precision of 0.858 on a 691-image validation set and 0.847 on a small independently captured 30-image contributor test set. The most recent snapshot of dataset is made publicly available through three different distribution methods: one centralized (Girder) and two decentralized (IPFS and BitTorrent). We study of the trade-offs between distribution methods and discuss the feasibility of each with respect to reliably sharing open scientific data. The code to reproduce the experiments is hosted on GitHub, and the data is published under the Creative Commons Attribution 4.0 International license. Model weights are made publicly available with the dataset. Experimental hardware, time, energy, and emissions are quantified.
- Abstract(参考訳): 現在42ギガバイトの「生きた」犬の糞の電話画像データセットを導入し、手書きまたはAI支援のポリゴンラベルで注釈を付けました。
6kのフル解像度イメージと4kの詳細なポリゴンアノテーションがある。
画像の収集とアノテーションは2020年後半に始まり、データセットは約1GB成長した。
データセットの難しさを探るため、VITとMaskRCNNのベースラインモデルをトレーニングする。
最良のモデルでは、691イメージの検証セットで0.858の画素平均精度、30イメージの独立に捕獲された小さなコントリビュータテストセットで0.847の画素平均精度が達成される。
最新のデータセットのスナップショットは、中央集権型(Girder)と分散型(IPFSとBitTorrent)の3つの分散メソッドを通じて公開されている。
配電方式間のトレードオフについて検討し、オープンな科学データを確実に共有する上で、それぞれの実現可能性について議論する。
実験を再現するコードはGitHubにホストされ、データはCreative Commons Attribution 4.0 Internationalライセンスで公開されている。
モデルウェイトはデータセットで公開されています。
実験ハードウェア、時間、エネルギー、エミッションが定量化される。
関連論文リスト
- Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - Scrapping The Web For Early Wildfire Detection: A New Annotated Dataset of Images and Videos of Smoke Plumes In-the-wild [0.0]
PyroNear-2024は、画像とビデオの両方で構成された新しいデータセットで、煙管検出モデルのトレーニングと評価を可能にする。
textit(i) パブリックなカメラネットワークからの山火事のWebスクラップビデオ、ワイルドファイア検出のためのワイルドファイア検出用ビデオ、我々の社内のカメラネットワークからのテキスト(ii) ビデオ、そしてtextit(iii) 合成画像と実画像のごく一部から得られたデータである。
論文 参考訳(メタデータ) (2024-02-08T02:01:36Z) - Distributionally Robust Classification on a Data Budget [26.69877485937123]
2.4万の画像サンプル上でのクロスエントロピー損失でトレーニングされた標準ResNet-50は、4億の画像サンプルでトレーニングされたCLIP ResNet-50と同等の堅牢性を達成できることを示す。
これは、限られたデータ予算に対して(ほぼ)最先端の分散ロバスト性を示す最初の結果である。
論文 参考訳(メタデータ) (2023-08-07T15:30:02Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - PDIWS: Thermal Imaging Dataset for Person Detection in Intrusion Warning
Systems [0.0]
データセットは2000イメージのトレーニングセットと500イメージのテストセットで構成されている。
全50の背景があり、1000人近い被験者は5つのポーズに従って5つのクラスに分けられる。
最初の4つのポーズが検出された場合、侵入者の存在を確認する。
論文 参考訳(メタデータ) (2023-02-26T11:02:34Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - LAION-5B: An open large-scale dataset for training next generation
image-text models [16.129935376579326]
我々は585億のCLIPフィルタリング画像テキストペアからなるデータセットであるLAION-5Bを紹介し、そのうち2.32Bは英語を含む。
このデータセットを用いて,CLIP,GLIDE,Stable Diffusionといった基礎モデルのレプリケーションと微調整に成功した。
また、近接するいくつかのインデックス、データセット探索のためのWebインターフェースの改善、サブセット生成も提供しています。
論文 参考訳(メタデータ) (2022-10-16T00:08:18Z) - Large-Scale Unsupervised Object Discovery [80.60458324771571]
教師なしオブジェクトディスカバリ(UOD)は、パフォーマンスを損なう近似なしでは、大規模なデータセットにスケールアップしない。
本稿では,固有値問題やリンク解析に利用できる分散手法の武器として,ランク付け問題としてのUODの新たな定式化を提案する。
論文 参考訳(メタデータ) (2021-06-12T00:29:49Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels [128.77822070156057]
本研究では,対象物が明示的にあるいは暗黙的に複数のラベルを持つ可能性のあるラベル問題を定量的に解析する。
ラベルの不均衡に対処するために,ハイブリッドトレーニングスケジューラを用いたソフトサンプリング手法を提案する。
提案手法は3.34点の劇的な改善を実現し,オープンイメージの公開オブジェクト検出テストセット上で60.90mAPの最高の単一モデルを実現する。
論文 参考訳(メタデータ) (2020-05-18T04:36:36Z) - Google Landmarks Dataset v2 -- A Large-Scale Benchmark for
Instance-Level Recognition and Retrieval [9.922132565411664]
大規模できめ細かいインスタンス認識と画像検索のための新しいベンチマークであるGoogle Landmarks dataset v2(GLDv2)を紹介した。
GLDv2は、500万以上の画像と200万のインスタンスラベルを含む、これまでで最大のデータセットである。
ウィキメディア・コモンズ(Wikimedia Commons)は、世界最大のクラウドソースによるランドマーク写真コレクションである。
論文 参考訳(メタデータ) (2020-04-03T22:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。