論文の概要: Label Errors in the Tobacco3482 Dataset
- arxiv url: http://arxiv.org/abs/2412.13140v1
- Date: Tue, 17 Dec 2024 18:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:58:23.299181
- Title: Label Errors in the Tobacco3482 Dataset
- Title(参考訳): Tobacco3482データセットにおけるラベルエラー
- Authors: Gordon Lim, Stefan Larson, Kevin Leach,
- Abstract要約: Tobacco2は広く使われている文書分類ベンチマークデータセットである。
データセットの11.7%が不適切な注釈付きであり、未知のラベルまたは修正されたラベルを持つべきである。
次に、トップパフォーマンスモデルのミスを分析し、モデルのミスの35%は、これらのラベルの問題に直接起因することができることに気付きます。
- 参考スコア(独自算出の注目度): 5.9848836847249185
- License:
- Abstract: Tobacco3482 is a widely used document classification benchmark dataset. However, our manual inspection of the entire dataset uncovers widespread ontological issues, especially large amounts of annotation label problems in the dataset. We establish data label guidelines and find that 11.7% of the dataset is improperly annotated and should either have an unknown label or a corrected label, and 16.7% of samples in the dataset have multiple valid labels. We then analyze the mistakes of a top-performing model and find that 35% of the model's mistakes can be directly attributed to these label issues, highlighting the inherent problems with using a noisily labeled dataset as a benchmark. Supplementary material, including dataset annotations and code, is available at https://github.com/gordon-lim/tobacco3482-mistakes/.
- Abstract(参考訳): Tobacco3482は広く使われている文書分類ベンチマークデータセットである。
しかしながら、データセット全体の手作業による検査では、特にデータセット内の大量のアノテーションラベル問題など、幅広いオントロジ上の問題が明らかになった。
データラベルガイドラインを確立し、データセットの11.7%が不適切に注釈付けされており、未知のラベルまたは修正されたラベルを持つべきであり、データセットの16.7%のサンプルには複数の有効なラベルがある。
次に、トップパフォーマンスモデルのミスを分析し、モデルのミスの35%がこれらのラベルの問題に直接起因していることを発見し、ノイズの多いラベル付きデータセットをベンチマークとして使用する際の固有の問題を強調します。
データセットのアノテーションやコードを含む追加資料はhttps://github.com/gordon-lim/tobacco3482-mistakes/.comで入手できる。
関連論文リスト
- FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - ScarceNet: Animal Pose Estimation with Scarce Annotations [74.48263583706712]
ScarceNetは、ラベルのない画像のための人工ラベルを生成するための擬似ラベルベースのアプローチである。
我々は、既存の半教師付きアプローチを大きなマージンで上回る、挑戦的なAP-10Kデータセットに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-03-27T09:15:53Z) - Identifying Label Errors in Object Detection Datasets by Loss Inspection [4.442111891959355]
本稿では,オブジェクト検出データセットにおけるラベル誤り検出手法のベンチマークを紹介する。
そこで本研究では,軌道上でランダムに導入した4種類のラベルエラーと,良好なラベル付きオブジェクト検出データセットの試験セットをシミュレートする。
論文 参考訳(メタデータ) (2023-03-13T10:54:52Z) - Identifying Incorrect Annotations in Multi-Label Classification Data [14.94741409713251]
マルチラベル分類データセットにおけるラベルの誤用例を見つけるアルゴリズムについて検討する。
本稿では、この設定に対する信頼学習フレームワークの拡張と、ラベルエラーのある事例を正しくラベル付けされたものよりも格付けするラベル品質スコアを提案する。
論文 参考訳(メタデータ) (2022-11-25T05:03:56Z) - Detecting Label Errors in Token Classification Data [22.539748563923123]
トークン分類データセットにラベルエラーを含む文を見つけるタスクについて検討する。
予測されたクラス確率に基づいてトークン/文をスコアする,11種類の簡単な手法について検討する。
異なるトークン分類モデルに適用した場合にラベルエラーを含む文を一貫して検出する,単純かつ効果的な手法を同定する。
論文 参考訳(メタデータ) (2022-10-08T05:14:22Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Instance Correction for Learning with Open-set Noisy Labels [145.06552420999986]
オープンセットノイズラベルの処理にはサンプル選択方式を用いる。
廃棄されたデータは間違ったラベルで書かれており、トレーニングには参加していない。
廃棄されたデータのインスタンスを変更して、廃棄されたデータの予測をラベルに一致させる。
論文 参考訳(メタデータ) (2021-06-01T13:05:55Z) - Pervasive Label Errors in Test Sets Destabilize Machine Learning
Benchmarks [12.992191397900806]
我々は、最もよく使われるコンピュータビジョン、自然言語、音声データセットの10のテストセットでラベルエラーを識別する。
例えば、2916のラベルエラーは、ImageNet検証セットの6%を占めています。
論文 参考訳(メタデータ) (2021-03-26T21:54:36Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - openXDATA: A Tool for Multi-Target Data Generation and Missing Label
Completion [23.14045574165086]
機械学習の一般的な問題は、不整合ラベル空間と欠落ラベルを持つデータセットを扱うことである。
本研究では,一部ラベル付きあるいは非ラベル付きデータセットで不足ラベルを補完するopenXdataツールを紹介する。
根拠となる真理値に近づいたレートで、すべてのデータセットに対してカテゴリと連続ラベルの両方を推定する能力を示す。
論文 参考訳(メタデータ) (2020-07-27T22:05:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。