論文の概要: dopanim: A Dataset of Doppelganger Animals with Noisy Annotations from Multiple Humans
- arxiv url: http://arxiv.org/abs/2407.20950v1
- Date: Tue, 30 Jul 2024 16:27:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:30:51.627703
- Title: dopanim: A Dataset of Doppelganger Animals with Noisy Annotations from Multiple Humans
- Title(参考訳): ドパニム:複数の人間からの騒々しい注釈付きドッペルガンガー動物のデータセット
- Authors: Marek Herde, Denis Huseljic, Lukas Rauch, Bernhard Sick,
- Abstract要約: 本研究では,15種類の動物画像と地上の真理ラベルからなる新しいベンチマークデータセットであるdopanimを紹介した。
これらの画像のうち約10,500枚において、20人の人間が52,000点以上のアノテーションを提供し、精度は67%だった。
我々は、このデータセットの7つの変種を用いて、よく知られたマルチアノテーション学習アプローチをベンチマークし、ハードクラスラベルを超える学習やアクティブラーニングといったさらなる評価ユースケースについて概説する。
- 参考スコア(独自算出の注目度): 1.99197168821625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human annotators typically provide annotated data for training machine learning models, such as neural networks. Yet, human annotations are subject to noise, impairing generalization performances. Methodological research on approaches counteracting noisy annotations requires corresponding datasets for a meaningful empirical evaluation. Consequently, we introduce a novel benchmark dataset, dopanim, consisting of about 15,750 animal images of 15 classes with ground truth labels. For approximately 10,500 of these images, 20 humans provided over 52,000 annotations with an accuracy of circa 67%. Its key attributes include (1) the challenging task of classifying doppelganger animals, (2) human-estimated likelihoods as annotations, and (3) annotator metadata. We benchmark well-known multi-annotator learning approaches using seven variants of this dataset and outline further evaluation use cases such as learning beyond hard class labels and active learning. Our dataset and a comprehensive codebase are publicly available to emulate the data collection process and to reproduce all empirical results.
- Abstract(参考訳): 人間のアノテーションは通常、ニューラルネットワークのような機械学習モデルをトレーニングするための注釈付きデータを提供する。
しかし、人間のアノテーションはノイズにさらされ、一般化性能を損なう。
ノイズに対処する手法の研究は、有意義な経験的評価のために対応するデータセットを必要とする。
その結果,15種類の動物画像と地中真理ラベルからなる新しいベンチマークデータセットであるdopanimを導入した。
これらの画像のうち約10,500枚において、20人の人間が52,000点以上のアノテーションを提供し、精度は67%だった。
主な属性は,(1)ドッペルガンガー動物分類の課題,(2)アノテーションとしての人間推定可能性,(3)アノテータメタデータである。
我々は、このデータセットの7つの変種を用いて、よく知られたマルチアノテーション学習アプローチをベンチマークし、ハードクラスラベルを超える学習やアクティブラーニングといったさらなる評価ユースケースについて概説する。
我々のデータセットと包括的コードベースは、データ収集プロセスをエミュレートし、すべての経験的な結果を再現するために公開されています。
関連論文リスト
- The Re-Label Method For Data-Centric Machine Learning [0.24475591916185496]
業界におけるディープラーニングアプリケーションでは、手動でラベル付けされたデータには、ある種のノイズの多いデータがあります。
本稿では,人間のラベル付けにおける参照としてモデル予測を考慮し,ノイズデータを探し出し,ノイズデータを再ラベルする簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-02-09T01:09:57Z) - Improving Named Entity Recognition in Telephone Conversations via
Effective Active Learning with Human in the Loop [2.1004132913758267]
我々は、ループ学習における人間を活用したアクティブラーニングフレームワークを提案し、アノテーション付きデータセットからデータサンプルを同定し、再アノテーションを行う。
データセット全体の6%のトレーニングインスタンスを再注釈することで、特定のエンティティタイプに対するF1スコアを約25%改善することができる。
論文 参考訳(メタデータ) (2022-11-02T17:55:04Z) - MABe22: A Multi-Species Multi-Task Benchmark for Learned Representations
of Behavior [28.878568752724235]
学習行動表現の質を評価するベンチマークであるMABe22を紹介する。
このデータセットは様々な生物学実験から収集される。
我々は,自己教師付きビデオとトラジェクトリ表現学習法を試行し,ベンチマークの利用を実証した。
論文 参考訳(メタデータ) (2022-07-21T15:51:30Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy
Labels [33.659146748289444]
約200万のビデオと関連するユーザ生成アノテーションやその他のメタ情報からなるベンチマークデータセットを作成します。
提案したデータセット上で事前トレーニングされたネットワークは、下流データセットにおけるビデオの破損やラベルノイズに対してどのように役立つかを示す。
論文 参考訳(メタデータ) (2021-10-13T16:12:18Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Semi-Automatic Data Annotation guided by Feature Space Projection [117.9296191012968]
本稿では,適切な特徴空間投影と半教師付きラベル推定に基づく半自動データアノテーション手法を提案する。
MNISTデータセットとヒト腸内寄生虫の胎児不純物の有無による画像を用いて本手法の有効性を検証した。
この結果から,人間と機械の相補的能力を組み合わせた視覚分析ツールの付加価値が,より効果的な機械学習に有効であることが示唆された。
論文 参考訳(メタデータ) (2020-07-27T17:03:50Z) - Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences
for Urban Scene Segmentation [57.68890534164427]
本研究では,未ラベル映像シーケンスと追加画像の半教師付き学習を利用して,都市景観セグメンテーションの性能を向上させることができるかどうかを問う。
我々は単にラベルのないデータに対して擬似ラベルを予測し、人間の注釈付きデータと擬似ラベル付きデータの両方でその後のモデルを訓練する。
我々のNaive-Studentモデルは、このような単純で効果的な反復的半教師付き学習で訓練され、3つのCityscapesベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-05-20T18:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。