論文の概要: Inconsistency Ranking-based Noisy Label Detection for High-quality Data
- arxiv url: http://arxiv.org/abs/2212.00239v2
- Date: Thu, 15 Jun 2023 14:08:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-17 02:54:40.500167
- Title: Inconsistency Ranking-based Noisy Label Detection for High-quality Data
- Title(参考訳): 不整合ランキングに基づく高品質データのノイズラベル検出
- Authors: Ruibin Yuan, Hanzhi Yin, Yi Wang, Yifan He, Yushi Ye, Lei Zhang,
Zhizheng Wu
- Abstract要約: 本稿では,高品質データに対する非整合性ランキング付き自動ノイズラベル検出(NLD)手法を提案する。
クラス間の不整合度ランキングとクラス内不整合度ランキングを比較し,異なる雑音条件下でのメトリクス学習損失関数を比較した。
実験結果から,提案手法は大規模話者認識データセットの効率的なクリーニングと効率的なクリーニングを両立させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.844624139434867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep learning requires high-quality annotated and massive
data. However, the size and the quality of a dataset are usually a trade-off in
practice, as data collection and cleaning are expensive and time-consuming. In
real-world applications, especially those using crowdsourcing datasets, it is
important to exclude noisy labels. To address this, this paper proposes an
automatic noisy label detection (NLD) technique with inconsistency ranking for
high-quality data. We apply this technique to the automatic speaker
verification (ASV) task as a proof of concept. We investigate both inter-class
and intra-class inconsistency ranking and compare several metric learning loss
functions under different noise settings. Experimental results confirm that the
proposed solution could increase both the efficient and effective cleaning of
large-scale speaker recognition datasets.
- Abstract(参考訳): ディープラーニングの成功には、高品質な注釈と膨大なデータが必要です。
しかし、データセットのサイズと品質は通常、データ収集とクリーニングが高価で時間がかかるため、トレードオフとなる。
現実世界のアプリケーション、特にクラウドソーシングデータセットを使用するアプリケーションでは、ノイズの多いラベルを除外することが重要です。
そこで本稿では,高品質データに対する不整合ランキングを用いた雑音ラベル検出(nld)手法を提案する。
本稿では,この手法を概念実証として自動話者検証(ASV)タスクに適用する。
クラス間およびクラス内非一貫性のランキングを調査し、異なる雑音環境下でのいくつかのメトリック学習損失関数を比較した。
実験の結果,提案手法は大規模話者認識データセットの効率的かつ効果的にクリーニングできることがわかった。
関連論文リスト
- Automatic Dataset Construction (ADC): Sample Collection, Data Curation, and Beyond [38.89457061559469]
本稿では,データセット作成をコストと高効率で自動化する革新的な手法を提案する。
我々は,ラベルの誤り検出,ノイズやバイアスのあるデータによる堅牢な学習など,既存の手法を組み込んだオープンソースソフトウェアを提供する。
ラベルノイズ検出、ラベルノイズ学習、クラス不均衡学習に焦点を当てた3つのベンチマークデータセットを設計する。
論文 参考訳(メタデータ) (2024-08-21T04:45:12Z) - Data Valuation with Gradient Similarity [1.997283751398032]
データ評価アルゴリズムは、与えられた予測タスクへの貢献または重要性に基づいて、データセット内の各サンプルの価値を定量化する。
DVGS(Data Valuation with Gradient similarity)と呼ばれる既存の手法に代わる単純な方法を提案する。
当社のアプローチでは,低品質なデータを迅速かつ正確に識別することが可能で,データクリーニング作業における専門家の知識や手作業による介入の必要性を低減できる。
論文 参考訳(メタデータ) (2024-05-13T22:10:00Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Tackling Instance-Dependent Label Noise via a Universal Probabilistic
Model [80.91927573604438]
本稿では,ノイズラベルをインスタンスに明示的に関連付ける,単純かつ普遍的な確率モデルを提案する。
合成および実世界のラベルノイズを用いたデータセット実験により,提案手法がロバスト性に大きな改善をもたらすことを確認した。
論文 参考訳(メタデータ) (2021-01-14T05:43:51Z) - Deep Learning from Small Amount of Medical Data with Noisy Labels: A
Meta-Learning Approach [0.0]
コンピュータビジョンシステムは、適切にトレーニングするために、正しくラベル付けされた大きなデータセットを必要とする。
医療画像データセットは通常小さく、各データは学習において非常に重要である。
本稿ではメタラーニングパラダイムを利用したラベルノイズ・ロバスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T10:39:44Z) - Audio Tagging by Cross Filtering Noisy Labels [26.14064793686316]
そこで我々はCrossFilterという新しいフレームワークを提案し,音声タグ付けにおけるノイズラベル問題に対処する。
提案手法は最先端の性能を達成し,アンサンブルモデルを超えている。
論文 参考訳(メタデータ) (2020-07-16T07:55:04Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。