論文の概要: CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset
- arxiv url: http://arxiv.org/abs/2408.12362v1
- Date: Thu, 22 Aug 2024 12:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:53:43.122368
- Title: CLEANANERCorp: Identifying and Correcting Incorrect Labels in the ANERcorp Dataset
- Title(参考訳): CLEANANERCorp: Anercorpデータセットにおける不正ラベルの同定と修正
- Authors: Mashael Al-Duwais, Hend Al-Khalifa, Abdulmalik Al-Salman,
- Abstract要約: 我々は、広く採用されているアラビアのNERベンチマークデータセット(ANERcorp)の1つを深く掘り下げた。
大量のアノテーションエラー、ラベルの欠如、一貫性がないことが分かりました。
我々はCLEANANERCorpというデータセットのよりクリーンなバージョンを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label errors are a common issue in machine learning datasets, particularly for tasks such as Named Entity Recognition. Such label errors might hurt model training, affect evaluation results, and lead to an inaccurate assessment of model performance. In this study, we dived deep into one of the widely adopted Arabic NER benchmark datasets (ANERcorp) and found a significant number of annotation errors, missing labels, and inconsistencies. Therefore, in this study, we conducted empirical research to understand these errors, correct them and propose a cleaner version of the dataset named CLEANANERCorp. CLEANANERCorp will serve the research community as a more accurate and consistent benchmark.
- Abstract(参考訳): ラベルエラーは、機械学習データセット、特に名前付きエンティティ認識のようなタスクにおいて一般的な問題である。
このようなラベルエラーは、モデルトレーニングを傷つけ、評価結果に影響し、モデルパフォーマンスの不正確な評価につながる可能性がある。
本研究では、広く採用されているアラビアのNERベンチマークデータセット(ANERcorp)の1つを深く掘り下げ、かなりの数のアノテーションエラー、ラベルの欠如、矛盾を発見した。
そこで本研究では,これらの誤りを理解し,修正し,CLEANANERCorpというデータセットのよりクリーンなバージョンを提案する。
CLEANANERCorpは、より正確で一貫したベンチマークとして研究コミュニティにサービスを提供する。
関連論文リスト
- Are LLMs Better than Reported? Detecting Label Errors and Mitigating Their Effect on Model Performance [21.926934384262594]
大きな言語モデル(LLM)は、アノテーションプロセスを強化する新しい機会を提供する。
合意、ラベルの品質、効率の点で、専門家、クラウドソース、LLMベースのアノテーションを比較します。
以上の結果から,ラベルエラーがかなり多く,修正されると,報告されたモデル性能が大幅に上向きに変化することが判明した。
論文 参考訳(メタデータ) (2024-10-24T16:27:03Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - CleanCoNLL: A Nearly Noise-Free Named Entity Recognition Dataset [3.3162484539136416]
英語のCoNLL-03における全ラベルの7.0%を補正する自動整合性チェックを補助する包括的ラバーリング手法を提案する。
実験結果から, 最先端の手法がF1スコア(97.1%)をはるかに上回っているだけでなく, アノテーションノイズによる誤りとして誤算された正確な予測のシェアが47%から6%に低下していることが判明した。
これは、我々の資源が最先端モデルによる残差を分析するのに適しており、理論上界が高資源であっても、粗粒NERがまだ未定であることを示唆している。
論文 参考訳(メタデータ) (2023-10-24T22:34:43Z) - Estimating label quality and errors in semantic segmentation data via
any model [19.84626033109009]
ラベル品質を評価する手法について検討し、最も低いスコアのイメージを正しくラベル付けする可能性が低いことを示す。
これにより、高品質なトレーニング/評価データセットを保証するために、レビューするデータを優先順位付けすることが可能になる。
論文 参考訳(メタデータ) (2023-07-11T07:29:09Z) - AQuA: A Benchmarking Tool for Label Quality Assessment [16.83510474053401]
近年の研究では、機械学習モデルのトレーニングと評価に広く使用されているデータセットに、広範なラベル付けエラーがあることがわかった。
本稿では,ラベルノイズの存在下で機械学習を可能にする手法を厳格に評価するためのベンチマーク環境AQuAを提案する。
論文 参考訳(メタデータ) (2023-06-15T19:42:11Z) - Automated Labeling of German Chest X-Ray Radiology Reports using Deep
Learning [50.591267188664666]
本稿では,ルールベースのドイツ語CheXpertモデルによってラベル付けされたレポートに基づいて,ディープラーニングに基づくCheXpertラベル予測モデルを提案する。
その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-06-09T16:08:35Z) - A Confidence-based Partial Label Learning Model for Crowd-Annotated
Named Entity Recognition [74.79785063365289]
名前付きエンティティ認識(NER)のための既存のモデルは、主に大規模ラベル付きデータセットに基づいている。
我々は,クラウドアノテートNERに対する先行信頼度(アノテータによる提案)と後続信頼度(モデルによる学習)を統合するために,信頼に基づく部分ラベル学習(CPLL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-21T15:31:23Z) - Investigation of Training Label Error Impact on RNN-T [8.470599402385302]
我々は、RNN-TベースのASRモデルに対する異なるトレーニングラベル誤差の影響を分析する。
削除ラベルエラーの低減を優先して,RNN-Tのデータパイプラインの設計を提案する。
論文 参考訳(メタデータ) (2021-12-01T08:57:39Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。