論文の概要: Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning
- arxiv url: http://arxiv.org/abs/2211.16756v1
- Date: Wed, 30 Nov 2022 05:48:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 16:56:22.627817
- Title: Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning
- Title(参考訳): Split-PU: ポジティブな学習のためのハーネスアウェアトレーニング戦略
- Authors: Chengming Xu, Chen Liu, Siqian Yang, Yabiao Wang, Shijie Zhang, Lijie
Jia, Yanwei Fu
- Abstract要約: Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
- 参考スコア(独自算出の注目度): 42.26185670834855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Positive-Unlabeled (PU) learning aims to learn a model with rare positive
samples and abundant unlabeled samples. Compared with classical binary
classification, the task of PU learning is much more challenging due to the
existence of many incompletely-annotated data instances. Since only part of the
most confident positive samples are available and evidence is not enough to
categorize the rest samples, many of these unlabeled data may also be the
positive samples. Research on this topic is particularly useful and essential
to many real-world tasks which demand very expensive labelling cost. For
example, the recognition tasks in disease diagnosis, recommendation system and
satellite image recognition may only have few positive samples that can be
annotated by the experts. These methods mainly omit the intrinsic hardness of
some unlabeled data, which can result in sub-optimal performance as a
consequence of fitting the easy noisy data and not sufficiently utilizing the
hard data. In this paper, we focus on improving the commonly-used nnPU with a
novel training pipeline. We highlight the intrinsic difference of hardness of
samples in the dataset and the proper learning strategies for easy and hard
data. By considering this fact, we propose first splitting the unlabeled
dataset with an early-stop strategy. The samples that have inconsistent
predictions between the temporary and base model are considered as hard
samples. Then the model utilizes a noise-tolerant Jensen-Shannon divergence
loss for easy data; and a dual-source consistency regularization for hard data
which includes a cross-consistency between student and base model for low-level
features and self-consistency for high-level features and predictions,
respectively.
- Abstract(参考訳): Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
古典的なバイナリ分類と比較すると、不完全なデータインスタンスが多く存在するため、pu学習のタスクはずっと難しい。
最も確実な正のサンプルの一部のみが利用可能であり、残りのサンプルを分類するには証拠が不十分であるため、これらのラベルのないデータも正のサンプルである可能性がある。
このトピックの研究は特に有用であり、非常に高価なラベリングコストを必要とする現実世界の多くのタスクに不可欠である。
例えば、疾患診断、レコメンデーションシステム、衛星画像認識における認識タスクは、専門家が注釈を付けることができるポジティブなサンプルしか持たない。
これらの方法では, 未ラベルデータの本質的な硬さを省略し, ノイズの多いデータに適合し, ハードデータを十分に利用しないため, 最適以下の性能が得られる。
本稿では,新しいトレーニングパイプラインを用いて,広く使用されているnnpuの改善に着目する。
我々は,データセット中のサンプルの硬さの本質的な違いと,容易で硬いデータに対する適切な学習戦略を強調した。
この事実を考慮して,まずラベルなしデータセットを早期停止戦略で分割する。
仮モデルと基本モデルの間に矛盾した予測を持つサンプルは、硬いサンプルと見なされる。
次に, ノイズ耐性のJensen-Shannon分散損失と, 低レベル特徴に対する学生モデルとベースモデルとの相互整合性, 高レベル特徴と予測のための自己整合性を含むハードデータの二重ソース整合正規化を利用する。
関連論文リスト
- Learning with Instance-Dependent Noisy Labels by Anchor Hallucination and Hard Sample Label Correction [12.317154103998433]
従来のNoisy-Label Learning (NLL) 手法は、トレーニングサンプルの損失分布に基づいて、トレーニングデータをクリーンでノイズの多いセットに分類する。
提案手法は, 清潔さと難易度と難易度を明確に区別する。
修正されたハードサンプルと簡単なサンプルは、その後の半教師付きトレーニングでラベル付きデータとして使用される。
論文 参考訳(メタデータ) (2024-07-10T03:00:14Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Differences Between Hard and Noisy-labeled Samples: An Empirical Study [7.132368785057315]
ハード/ディフルトなサンプルを含むラベル付きデータセットからのノイズや誤ったラベル付きサンプルは、重要だが未調査のトピックである。
硬さを保ちながらノイズのあるラベル付きサンプルをフィルタリングする,単純で効果的な計量法を提案する。
提案手法は,半教師付き学習フレームワークにおいて,他の手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-20T09:24:23Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - DiscrimLoss: A Universal Loss for Hard Samples and Incorrect Samples
Discrimination [28.599571524763785]
ラベルノイズ(すなわち不正なデータ)が与えられた場合、ディープニューラルネットワークはラベルノイズとモデル性能を徐々に記憶する。
この問題を解消するために,カリキュラム学習を提案し,学習サンプルを有意義な順序で順序付けすることで,モデル性能と一般化を向上させる。
論文 参考訳(メタデータ) (2022-08-21T13:38:55Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - An analysis of over-sampling labeled data in semi-supervised learning
with FixMatch [66.34968300128631]
ほとんどの半教師付き学習手法は、ミニバッチを訓練する際にラベルをオーバーサンプルする。
本稿では,この実践が学習と方法を改善するかどうかを考察する。
ラベル付けの有無に関わらず、トレーニングデータから各ミニバッチを均一にサンプリングする別の設定と比較する。
論文 参考訳(メタデータ) (2022-01-03T12:22:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。