論文の概要: Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism
- arxiv url: http://arxiv.org/abs/2302.07540v1
- Date: Wed, 15 Feb 2023 09:18:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-16 15:35:09.699898
- Title: Are labels informative in semi-supervised learning? -- Estimating and
leveraging the missing-data mechanism
- Title(参考訳): ラベルは半教師付き学習に有益か?
--不足データメカニズムの推定と活用
- Authors: Aude Sportisse (CRISAM,3iA C\^ote d'Azur, MAASAI, UCA), Hugo Schmutz
(CRISAM, TIRO-MATOs, JAD,3iA C\^ote d'Azur, MAASAI, UCA), Olivier Humbert
(UNICANCER/CAL, TIRO-MATOs, UCA), Charles Bouveyron (MAASAI, CRISAM,3iA
C\^ote d'Azur, UCA), Pierre-Alexandre Mattei (MAASAI, CRISAM,3iA C\^ote
d'Azur, UCA)
- Abstract要約: 半教師付き学習は、ラベルのないデータを利用して機械学習モデルを改善するための強力な技術である。
これは、あるクラスが他のクラスよりもラベル付けされる可能性が高い場合に発生する、情報的ラベルの存在に影響される可能性がある。
本稿では,データ不足のメカニズムを推定し,逆確率重み付けを用いてSSLアルゴリズムを劣化させることにより,この問題に対処する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.675583319625962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning is a powerful technique for leveraging unlabeled
data to improve machine learning models, but it can be affected by the presence
of ``informative'' labels, which occur when some classes are more likely to be
labeled than others. In the missing data literature, such labels are called
missing not at random. In this paper, we propose a novel approach to address
this issue by estimating the missing-data mechanism and using inverse
propensity weighting to debias any SSL algorithm, including those using data
augmentation. We also propose a likelihood ratio test to assess whether or not
labels are indeed informative. Finally, we demonstrate the performance of the
proposed methods on different datasets, in particular on two medical datasets
for which we design pseudo-realistic missing data scenarios.
- Abstract(参考訳): 半教師付き学習は、ラベル付きデータを活用して機械学習モデルを改善する強力な手法であるが、一部のクラスが他のクラスよりもラベル付けされる傾向にある 'informative' ラベルの存在に影響される可能性がある。
欠落したデータ文献では、そのようなラベルをランダムに欠落と呼ぶ。
本稿では,データ拡張を含む任意のSSLアルゴリズムをデバイアス化するために,欠落データ機構を推定し,逆の確率重み付けを用いてこの問題に対処する新しい手法を提案する。
また,ラベルが真に有益かどうかを評価するための確率比試験も提案する。
最後に, 疑似現実的欠落データシナリオを設計するための2つの医療データセットにおいて, 異なるデータセットにおける提案手法の性能を示す。
関連論文リスト
- Deep Active Learning with Manifold-preserving Trajectory Sampling [2.0717982775472206]
アクティブラーニング(AL)は、アノテーション(ラベル付け)のためのラベルなしデータの選択を最適化するための方法である
既存のディープALメソッドは、間違いなく、ラベル付きデータによって引き起こされるバイアスに悩まされ、ALコンテキストにおけるラベルなしデータよりもはるかに低い割合で処理される。
我々は,より正確な多様体を表現するためにラベル付きデータから学習した特徴空間を強制することを目的とした,manifold-Preserving Trajectory Smpling (MPTS) という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:04:09Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Weighted Distillation with Unlabeled Examples [15.825078347452024]
ラベルなし例による蒸留は、ラベル付きデータの量を制限する設定において、ディープニューラルネットワークをトレーニングするための一般的で強力な方法である。
本稿では, 蒸留訓練のパラダイムに合わせて, 学生の損失関数の再重み付けに基づいて, この問題に対処するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T04:08:56Z) - AuxMix: Semi-Supervised Learning with Unconstrained Unlabeled Data [6.633920993895286]
我々は,現在最先端のSSLアルゴリズムが,ラベルなし補助データの存在下での性能低下に悩まされていることを示す。
ラベル付き集合にセマンティックに似ていない補助データを隠すために,自己教師付き学習タスクを活用して汎用的な特徴を学習するアルゴリズムであるAuxMixを提案する。
論文 参考訳(メタデータ) (2022-06-14T16:25:20Z) - OpenCoS: Contrastive Semi-supervised Learning for Handling Open-set
Unlabeled Data [65.19205979542305]
ラベル付けされていないデータには、実際にはクラス外のサンプルが含まれる。
OpenCoSは、このリアルな半教師付き学習シナリオを扱う方法である。
論文 参考訳(メタデータ) (2021-06-29T06:10:05Z) - A Survey on Semi-Supervised Learning for Delayed Partially Labelled Data
Streams [10.370629574634092]
本調査は, 半教師付き環境で, 不正なデータを利用する手法に特に注意を払っている。
完全教師付き手法と半教師付き手法の両方に影響を及ぼす遅延ラベル問題について議論する。
論文 参考訳(メタデータ) (2021-06-16T23:14:20Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。