論文の概要: Is one annotation enough? A data-centric image classification benchmark
for noisy and ambiguous label estimation
- arxiv url: http://arxiv.org/abs/2207.06214v1
- Date: Wed, 13 Jul 2022 14:17:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-14 15:03:57.390929
- Title: Is one annotation enough? A data-centric image classification benchmark
for noisy and ambiguous label estimation
- Title(参考訳): アノテーションは十分ですか?
雑音および曖昧なラベル推定のためのデータ中心画像分類ベンチマーク
- Authors: Lars Schmarje, Vasco Grossmann, Claudius Zelenka, Sabine Dippel,
Rainer Kiko, Mariusz Oszust, Matti Pastell, Jenny Stracke, Anna Valros, Nina
Volkmann, Reinahrd Koch
- Abstract要約: 実世界の9つのデータセットと1つの画像に複数のアノテーションを付加した,データ中心の画像分類ベンチマークを提案する。
複数のアノテーションが実際のクラス分布をよりよく近似できることを示す。
ハードラベルはデータのあいまいさを捉えることができず、これは過信モデルの一般的な問題につながる可能性がある。
- 参考スコア(独自算出の注目度): 2.2807344448218503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality data is necessary for modern machine learning. However, the
acquisition of such data is difficult due to noisy and ambiguous annotations of
humans. The aggregation of such annotations to determine the label of an image
leads to a lower data quality. We propose a data-centric image classification
benchmark with nine real-world datasets and multiple annotations per image to
investigate and quantify the impact of such data quality issues. We focus on a
data-centric perspective by asking how we could improve the data quality.
Across thousands of experiments, we show that multiple annotations allow a
better approximation of the real underlying class distribution. We identify
that hard labels can not capture the ambiguity of the data and this might lead
to the common issue of overconfident models. Based on the presented datasets,
benchmark baselines, and analysis, we create multiple research opportunities
for the future.
- Abstract(参考訳): 現代の機械学習には高品質なデータが必要だ。
しかし、人間の騒々しく曖昧なアノテーションのため、そのようなデータの取得は困難である。
このようなアノテーションを集約して画像のラベルを決定すると、データ品質が低下する。
本研究では,9つの実世界のデータセットと複数のアノテーションを用いたデータ中心画像分類ベンチマークを提案し,そのようなデータ品質問題の影響を調査し定量化する。
データ品質をどのように改善できるかを問うことで、データ中心の視点にフォーカスしています。
何千もの実験を通じて、複数のアノテーションによって実際のクラス分布をより良く近似できることを示した。
ハードラベルはデータのあいまいさを捉えることができず、これは過信モデルの一般的な問題につながる可能性がある。
提示されたデータセット、ベンチマークベースライン、分析に基づいて、将来複数の研究機会を創出する。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism [4.675583319625962]
半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T09:18:46Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Agreeing to Disagree: Annotating Offensive Language Datasets with
Annotators' Disagreement [7.288480094345606]
我々は、アノテータ間の合意のレベルに着目し、攻撃的な言語データセットを作成するためにデータを選択する。
本研究は、異なるトピックをカバーする英語ツイートの3つの新しいデータセットを作成することを含む。
合意の低さがあるような難しいケースは、必ずしも品質の悪いアノテーションによるものではないことを示す。
論文 参考訳(メタデータ) (2021-09-28T08:55:04Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。