論文の概要: The Re-Label Method For Data-Centric Machine Learning
- arxiv url: http://arxiv.org/abs/2302.04391v8
- Date: Fri, 01 Nov 2024 02:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:33:18.478889
- Title: The Re-Label Method For Data-Centric Machine Learning
- Title(参考訳): データ中心機械学習のための再ラベル法
- Authors: Tong Guo,
- Abstract要約: 業界におけるディープラーニングアプリケーションでは、手動でラベル付けされたデータには、ある種のノイズの多いデータがあります。
本稿では,人間のラベル付けにおける参照としてモデル予測を考慮し,ノイズデータを探し出し,ノイズデータを再ラベルする簡単な方法を提案する。
- 参考スコア(独自算出の注目度): 0.24475591916185496
- License:
- Abstract: In industry deep learning application, our manually labeled data has a certain number of noisy data. To solve this problem and achieve more than 90 score in dev dataset, we present a simple method to find the noisy data and re-label the noisy data by human, given the model predictions as references in human labeling. In this paper, we illustrate our idea for a broad set of deep learning tasks, includes classification, sequence tagging, object detection, sequence generation, click-through rate prediction. The dev dataset evaluation results and human evaluation results verify our idea.
- Abstract(参考訳): 業界におけるディープラーニングアプリケーションでは、手動でラベル付けされたデータには、ある種のノイズの多いデータがあります。
この問題を解決し、開発データセットで90以上のスコアを達成するために、人間のラベル付けにおける参照としてモデル予測を考慮し、ノイズデータを見つけ、ノイズデータを再ラベルする簡単な方法を提案する。
本稿では,分類,シーケンスタグ付け,オブジェクト検出,シーケンス生成,クリックスルー率予測など,幅広いディープラーニングタスクのセットについて述べる。
開発データセットの評価結果と人的評価結果は、私たちのアイデアを検証する。
関連論文リスト
- XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Label Selection Approach to Learning from Crowds [25.894399244406287]
Crowdsからの学習は、群衆労働者のラベル付きデータを使ってモデルを直接訓練するフレームワークである。
本稿では,選択型予測問題に対してSelectiveNetに着想を得た新しいLearning from Crowdsモデルを提案する。
提案手法の主な利点は、教師付き学習問題のほとんど全ての変種に適用できることである。
論文 参考訳(メタデータ) (2023-08-21T00:22:32Z) - MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
論文 参考訳(メタデータ) (2023-06-20T14:26:53Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Learning From How Human Correct [0.685316573653194]
業界におけるNLPアプリケーションでは、手動でラベル付けしたデータには、ある種のノイズの多いデータがあります。
本稿では,ノイズの多いデータを探し出し,手動で再現する簡単な方法を提案する。
そして,人間の補正情報を深層学習モデルに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-30T13:13:50Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Meta-Learning for Neural Relation Classification with Distant
Supervision [38.755055486296435]
本稿では,参照データの指導の下で,雑音の多い学習データを重み付けするメタラーニング手法を提案する。
いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的にガイドできることが示されている。
論文 参考訳(メタデータ) (2020-10-26T12:52:28Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。