論文の概要: ARCA23K: An audio dataset for investigating open-set label noise
- arxiv url: http://arxiv.org/abs/2109.09227v1
- Date: Sun, 19 Sep 2021 21:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 07:12:35.359971
- Title: ARCA23K: An audio dataset for investigating open-set label noise
- Title(参考訳): ARCA23K:オープンセットラベルノイズを調査するためのオーディオデータセット
- Authors: Turab Iqbal, Yin Cao, Andrew Bailey, Mark D. Plumbley, Wenwu Wang
- Abstract要約: 本稿では、23,000以上のラベル付きFreesoundクリップからなる自動検索およびキュレートされたオーディオデータセットであるARCA23Kを紹介する。
本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
- 参考スコア(独自算出の注目度): 48.683197172795865
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The availability of audio data on sound sharing platforms such as Freesound
gives users access to large amounts of annotated audio. Utilising such data for
training is becoming increasingly popular, but the problem of label noise that
is often prevalent in such datasets requires further investigation. This paper
introduces ARCA23K, an Automatically Retrieved and Curated Audio dataset
comprised of over 23000 labelled Freesound clips. Unlike past datasets such as
FSDKaggle2018 and FSDnoisy18K, ARCA23K facilitates the study of label noise in
a more controlled manner. We describe the entire process of creating the
dataset such that it is fully reproducible, meaning researchers can extend our
work with little effort. We show that the majority of labelling errors in
ARCA23K are due to out-of-vocabulary audio clips, and we refer to this type of
label noise as open-set label noise. Experiments are carried out in which we
study the impact of label noise in terms of classification performance and
representation learning.
- Abstract(参考訳): freesoundのような音声共有プラットフォームでオーディオデータが利用できるため、ユーザーは大量の注釈付きオーディオにアクセスできる。
このようなデータをトレーニングに利用することはますます普及しているが、このようなデータセットでよく見られるラベルノイズの問題にはさらなる調査が必要である。
本稿では,23000以上のラベル付きフリーサウンドクリップからなる音声データセットであるarca23kについて述べる。
FSDKaggle2018やFSDnoisy18Kのような過去のデータセットとは異なり、ARCA23Kはより制御された方法でラベルノイズの研究を促進する。
私たちは、データセットの作成プロセス全体を、完全に再現可能なように記述します。
本稿では,ARCA23Kのラベリング誤りの大部分は語彙外音声クリップによるものであり,このタイプのラベリングノイズをオープンセットラベルノイズと呼ぶ。
分類性能と表現学習の観点からラベルノイズの影響について検討する実験を行った。
関連論文リスト
- Sound Check: Auditing Audio Datasets [4.955141080136429]
生成オーディオモデルは、機能と公共利用の両方において急速に進歩している。
我々は,数百の音声データセットの文献レビューを行い,最も顕著な7つを選択した。
その結果、これらのデータセットは女性に対して偏りがあり、辺縁化コミュニティに関する有害なステレオタイプを含み、かなりの量の著作権作品を含んでいることがわかった。
論文 参考訳(メタデータ) (2024-10-17T00:51:27Z) - AlleNoise: large-scale text classification benchmark dataset with real-world label noise [40.11095094521714]
我々は、実世界のインスタンス依存ラベルノイズを持つ新しいキュレートされたテキスト分類ベンチマークであるAlleNoiseを提示する。
ノイズの分布は、主要なeコマースマーケットプレースの実際のユーザから来ており、人間のミスの意味を現実的に反映している。
このような実環境騒音に対処するには,雑音ラベルを用いた学習方法の代表的選択が不十分であることを示す。
論文 参考訳(メタデータ) (2024-06-24T09:29:14Z) - Handling Realistic Label Noise in BERT Text Classification [1.0515439489916731]
実ラベルノイズはランダムではなく、入力特徴や他のアノテータ固有の要因と相関することが多い。
これらのノイズの存在がBERT分類性能を著しく低下させることを示す。
論文 参考訳(メタデータ) (2023-05-23T18:30:31Z) - Epic-Sounds: A Large-scale Dataset of Actions That Sound [64.24297230981168]
Epic-Soundsは、時間範囲とクラスラベルをキャプチャする大規模なオーディオアノテーションデータセットである。
我々は、これらの自由形式の音声記述をクラスにまとめることで、純粋に音声と区別できる行動を特定する。
全体として、Epic-Soundsには78.4kの分類された音声イベントとアクションのセグメントがあり、44のクラスにまたがって配布され、39.2kの非分類セグメントが含まれている。
論文 参考訳(メタデータ) (2023-02-01T18:19:37Z) - S3: Supervised Self-supervised Learning under Label Noise [53.02249460567745]
本稿では,ラベルノイズの存在下での分類の問題に対処する。
提案手法の核心は,サンプルのアノテートラベルと特徴空間内のその近傍のラベルの分布との整合性に依存するサンプル選択機構である。
提案手法は,CIFARCIFAR100とWebVisionやANIMAL-10Nなどの実環境ノイズデータセットの両方で,従来の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2021-11-22T15:49:20Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - A Second-Order Approach to Learning with Instance-Dependent Label Noise [58.555527517928596]
ラベルノイズの存在は、しばしばディープニューラルネットワークのトレーニングを誤解させる。
人間による注釈付きラベルのエラーは、タスクの難易度レベルに依存する可能性が高いことを示しています。
論文 参考訳(メタデータ) (2020-12-22T06:36:58Z) - FSD50K: An Open Dataset of Human-Labeled Sound Events [30.42735806815691]
FSD50Kは、AudioSet Ontologyから抽出された200のクラスを手動でラベル付けした100h以上のオーディオクリップを含む、51k以上のオーディオクリップを含むオープンデータセットである。
オーディオクリップはCreative Commonsライセンスでライセンスされており、データセットを自由に配布できる(波形を含む)。
論文 参考訳(メタデータ) (2020-10-01T15:07:25Z) - Attention-Aware Noisy Label Learning for Image Classification [97.26664962498887]
大規模ラベル付きサンプルで学習した深層畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンにおいて顕著な進歩を遂げている。
大量のラベル付きビジュアルデータを取得する最も安価な方法は、Flickrのようなユーザーが提供するラベルでウェブサイトからクロールすることである。
本稿では,潜在的なラベルノイズのあるデータセットに基づいて学習したネットワークの識別能力を向上させるために,注目に敏感なラベル学習手法を提案する。
論文 参考訳(メタデータ) (2020-09-30T15:45:36Z) - Audio Tagging by Cross Filtering Noisy Labels [26.14064793686316]
そこで我々はCrossFilterという新しいフレームワークを提案し,音声タグ付けにおけるノイズラベル問題に対処する。
提案手法は最先端の性能を達成し,アンサンブルモデルを超えている。
論文 参考訳(メタデータ) (2020-07-16T07:55:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。