論文の概要: Identifying noisy labels with a transductive semi-supervised
leave-one-out filter
- arxiv url: http://arxiv.org/abs/2009.11811v1
- Date: Thu, 24 Sep 2020 16:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 04:13:41.701986
- Title: Identifying noisy labels with a transductive semi-supervised
leave-one-out filter
- Title(参考訳): 半教師付き除去フィルタを用いた雑音ラベルの同定
- Authors: Bruno Klaus de Aquino Afonso, Lilian Berton
- Abstract要約: 本稿では,LGC_LVOF(Local and Global Consistency (LGC) アルゴリズムに基づく一括フィルタリング手法)を導入する。
私たちのアプローチは、大量のラベルのないデータを持つデータセットに最も適していますが、ラベルは多くありません。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Obtaining data with meaningful labels is often costly and error-prone. In
this situation, semi-supervised learning (SSL) approaches are interesting, as
they leverage assumptions about the unlabeled data to make up for the limited
amount of labels. However, in real-world situations, we cannot assume that the
labeling process is infallible, and the accuracy of many SSL classifiers
decreases significantly in the presence of label noise. In this work, we
introduce the LGC_LVOF, a leave-one-out filtering approach based on the Local
and Global Consistency (LGC) algorithm. Our method aims to detect and remove
wrong labels, and thus can be used as a preprocessing step to any SSL
classifier. Given the propagation matrix, detecting noisy labels takes O(cl)
per step, with c the number of classes and l the number of labels. Moreover,
one does not need to compute the whole propagation matrix, but only an $l$ by
$l$ submatrix corresponding to interactions between labeled instances. As a
result, our approach is best suited to datasets with a large amount of
unlabeled data but not many labels. Results are provided for a number of
datasets, including MNIST and ISOLET. LGCLVOF appears to be equally or more
precise than the adapted gradient-based filter. We show that the best-case
accuracy of the embedding of LGCLVOF into LGC yields performance comparable to
the best-case of $\ell_1$-based classifiers designed to be robust to label
noise. We provide a heuristic to choose the number of removed instances.
- Abstract(参考訳): 意味のあるラベルでデータを取得することは、しばしばコストが高く、エラーを起こします。
この状況では、ラベルのないデータに関する仮定を利用してラベルの限られた量を補う、半教師付き学習(SSL)アプローチが興味深い。
しかし,実世界の状況では,ラベル付けプロセスが誤りであると仮定することはできず,多くのSSL分類器の精度はラベルノイズの存在下で著しく低下する。
そこで本研究では,LGC_LVOF(Local and Global Consistency (LGC) アルゴリズムに基づく一括フィルタリング手法)を導入する。
本手法は,誤ったラベルの検出と削除を目標とし,ssl分類器のプリプロセッシングステップとして使用できる。
伝搬行列が与えられると、雑音のラベルを検出するのに1ステップあたりo(cl)を要し、cはクラス数、lはラベル数である。
さらに、伝播行列全体を計算する必要はないが、ラベル付きインスタンス間の相互作用に対応する$l$ by $l$サブ行列のみである。
結果として、我々のアプローチはラベルのない大量のデータセットに最も適していますが、ラベルは多くありません。
MNISTやISOLETなど、いくつかのデータセットで結果が提供されている。
LGCLVOFは、適応した勾配ベースのフィルタと同等かそれ以上の精度である。
本稿では,LGCLVOFをLGCに埋め込む際の最良ケース精度が,騒音のラベル付けに頑健な$\ell_1$ベースの分類器のベストケースに匹敵する性能を示す。
削除されたインスタンスの数を選択するヒューリスティックを提供する。
関連論文リスト
- Inaccurate Label Distribution Learning with Dependency Noise [52.08553913094809]
本稿では,依存雑音に基づく不正確なラベル分布学習(DN-ILDL)フレームワークを導入し,ラベル分布学習におけるノイズによる課題に対処する。
本稿では,DN-ILDLがILDL問題に効果的に対処し,既存のLCL法より優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T07:58:07Z) - Prompt-based Pseudo-labeling Strategy for Sample-Efficient Semi-Supervised Extractive Summarization [12.582774521907227]
半教師付き学習(SSL)は、ラベル付きデータが不足し、ラベルなしデータが豊富であるシナリオで広く使われているテクニックである。
標準SSLメソッドは、まず分類モデルをトレーニングし、次に分類器の信頼性値を使用して擬似ラベルを選択するために教師-学生パラダイムに従う。
より正確な擬似ラベルでラベルなしのサンプルを抽出するLLMを用いたプロンプトベースの擬似ラベル方式を提案する。
論文 参考訳(メタデータ) (2023-11-16T04:29:41Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Positive Label Is All You Need for Multi-Label Classification [3.354528906571718]
マルチラベル分類(MLC)は、トレーニングデータにおけるラベルノイズによる課題に直面する。
本稿では,MPCにおけるラベルノイズに,PU-MLC法を導入して対処する。
PU-MLCは正のラベル付き学習を採用し、正のラベルとラベルなしのデータだけでモデルを訓練する。
論文 参考訳(メタデータ) (2023-06-28T08:44:00Z) - Complementary to Multiple Labels: A Correlation-Aware Correction
Approach [65.59584909436259]
理論上, マルチクラスCLLにおける遷移行列が, 複数ラベルの場合どのように歪むかを示す。
候補ラベルから遷移行列を推定する2段階の手法を提案する。
論文 参考訳(メタデータ) (2023-02-25T04:48:48Z) - Pseudo-Labeling Based Practical Semi-Supervised Meta-Training for Few-Shot Learning [93.63638405586354]
擬似ラベルベースメタラーニング(PLML)という,シンプルで効果的なメタトレーニングフレームワークを提案する。
まず、一般的な半教師付き学習(SSL)を用いて分類器を訓練し、ラベルなしデータの擬似ラベルを得る。
ラベル付きおよび擬似ラベル付きデータから数ショットのタスクを構築し、特徴の平滑化と雑音抑圧を伴う新しい微調整法を設計する。
論文 参考訳(メタデータ) (2022-07-14T10:53:53Z) - Multi-Label Gold Asymmetric Loss Correction with Single-Label Regulators [6.129273021888717]
本稿では,単一ラベルレギュレータ(GALC-SLR)を用いたGold Asymmetric Loss Correctionを提案する。
GALC-SLRは、単一ラベルサンプルを用いてノイズ混乱行列を推定し、推定された混乱行列を介して非対称な損失補正を構築し、雑音ラベルへの過度な適合を避ける。
実験結果から,本手法は,全ての汚損レベルにおいて,最先端の非対称損失マルチラベル分類器よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-08-04T12:57:29Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - Extended T: Learning with Mixed Closed-set and Open-set Noisy Labels [86.5943044285146]
ラベルノイズ遷移行列$T$は、真のラベルがノイズのあるものへと反転する確率を反映する。
本稿では,閉集合と開集合の混在したラベル雑音下での学習に着目した。
本手法は,従来の最先端のラベル雑音学習法よりも頑健な性能を追求し,混合ラベル雑音をモデル化する。
論文 参考訳(メタデータ) (2020-12-02T02:42:45Z) - Analysis of label noise in graph-based semi-supervised learning [2.4366811507669124]
機械学習では、目に見えないデータに一般化できるモデルを監督するためにラベルを取得する必要がある。
多くの場合、私たちのデータのほとんどはラベル付けされていない。
半教師付き学習(SSL)は、ラベルと入力データ分布の関係について強い仮定をすることで緩和する。
論文 参考訳(メタデータ) (2020-09-27T22:13:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。