論文の概要: The Rich Get Richer: Disparate Impact of Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2110.06282v1
- Date: Tue, 12 Oct 2021 19:05:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 13:37:15.513897
- Title: The Rich Get Richer: Disparate Impact of Semi-Supervised Learning
- Title(参考訳): 富がより豊かになる - 半監督学習の影響の相違
- Authors: Zhaowei Zhu, Tianyi Luo, Yang Liu
- Abstract要約: 半教師付き学習(SSL)は、様々な学習タスクのモデル精度を改善する可能性を実証している。
SSLがサブポピュレーションにどう影響するかは不明だ。
- 参考スコア(独自算出の注目度): 8.371989923694949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-supervised learning (SSL) has demonstrated its potential to improve the
model accuracy for a variety of learning tasks when the high-quality supervised
data is severely limited. Although it is often established that the average
accuracy for the entire population of data is improved, it is unclear how SSL
fares with different sub-populations. Understanding the above question has
substantial fairness implications when these different sub-populations are
defined by the demographic groups we aim to treat fairly. In this paper, we
reveal the disparate impacts of deploying SSL: the sub-population who has a
higher baseline accuracy without using SSL (the ``rich" sub-population) tends
to benefit more from SSL; while the sub-population who suffers from a low
baseline accuracy (the ``poor" sub-population) might even observe a performance
drop after adding the SSL module. We theoretically and empirically establish
the above observation for a broad family of SSL algorithms, which either
explicitly or implicitly use an auxiliary ``pseudo-label". Our experiments on a
set of image and text classification tasks confirm our claims. We discuss how
this disparate impact can be mitigated and hope that our paper will alarm the
potential pitfall of using SSL and encourage a multifaceted evaluation of
future SSL algorithms. Code is available at github.com/UCSC-REAL/Disparate-SSL.
- Abstract(参考訳): 半教師付き学習(SSL)は、高品質な教師付きデータが著しく制限された場合に、様々な学習タスクのモデル精度を向上させる可能性を実証している。
データ全体の平均精度が向上することがしばしば確認されているが、SSLがどのように異なるサブ人口と一致しているかは不明である。
以上の疑問を理解することは、これらの異なるサブ集団が、我々が公平に扱おうとする人口集団によって定義されるときに、かなりの公平性をもたらす。
本稿では,SSLの展開による異なる影響を明らかにする。SSLを使わずに高いベースライン精度を持つサブポピュレーションは,SSLの恩恵を受ける傾向にあるが,低ベースライン精度に悩まされるサブポピュレーション("poor"サブポピュレーション)は,SSLモジュールの追加後にパフォーマンス低下を観測することもある。
我々は、SSLアルゴリズムの幅広いファミリに対して、理論上かつ実証的に、補助的な ``pseudo-label' を明示的に、または暗黙的に使用することを証明した。
画像およびテキスト分類タスクのセットに関する実験は、我々の主張を裏付けるものである。
我々は、この異なる影響を緩和する方法について議論し、われわれの論文がSSLの使用の潜在的な落とし穴を警告し、将来のSSLアルゴリズムの多面的評価を促進することを期待する。
コードはgithub.com/UCSC-REAL/Disparate-SSLで入手できる。
関連論文リスト
- On the Discriminability of Self-Supervised Representation Learning [38.598160031349686]
自己教師付き学習(SSL)は、最近、下流の視覚タスクで大きな成功を収めた。
特に複雑な下流タスクにおいて、SSLと教師あり学習(SL)の間には、注目すべきギャップがまだ残っている。
論文 参考訳(メタデータ) (2024-07-18T14:18:03Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Can semi-supervised learning use all the data effectively? A lower bound
perspective [58.71657561857055]
半教師付き学習アルゴリズムはラベル付きデータを利用して教師付き学習アルゴリズムのラベル付きサンプル複雑性を改善することができることを示す。
我々の研究は、SSLアルゴリズムのパフォーマンス向上を証明することは可能だが、定数の注意深く追跡する必要があることを示唆している。
論文 参考訳(メタデータ) (2023-11-30T13:48:50Z) - Making Self-supervised Learning Robust to Spurious Correlation via
Learning-speed Aware Sampling [26.444935219428036]
自己教師付き学習(SSL)は、ラベルのないデータからリッチな表現を学ぶための強力なテクニックとして登場した。
現実の環境では、いくつかの属性(例えば、人種、性別、年齢)と下流タスクのラベルの間に急激な相関関係がしばしば存在する。
学習速度に逆相関する確率でトレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-27T22:52:45Z) - Self-Supervised PPG Representation Learning Shows High Inter-Subject
Variability [3.8036939971290007]
本稿では,信号再構成を前提とした自己教師付き学習(SSL)手法を提案し,汎用的なPSG表現を学習する。
結果として、SSLを使用するラベルデータ設定(クラス毎に10のサンプル)が非常に限定されていることが分かる。
SSLは、ラベルスカースレジームにおけるPSGデータに機械学習モデルが広く使われるための道を開くかもしれない。
論文 参考訳(メタデータ) (2022-12-07T19:02:45Z) - OpenLDN: Learning to Discover Novel Classes for Open-World
Semi-Supervised Learning [110.40285771431687]
半教師付き学習(SSL)は、教師付き学習のアノテーションボトルネックに対処する主要なアプローチの1つである。
最近のSSLメソッドは、ラベルなしデータの大規模なリポジトリを有効活用して、ラベル付きデータの小さなセットに依存しながら、パフォーマンスを向上させることができる。
この研究は、ペアワイズ類似度損失を利用して新しいクラスを発見するOpenLDNを導入している。
論文 参考訳(メタデータ) (2022-07-05T18:51:05Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - Self-supervised Learning is More Robust to Dataset Imbalance [65.84339596595383]
データセット不均衡下での自己教師型学習について検討する。
既製の自己教師型表現は、教師型表現よりもクラス不均衡に対してすでに堅牢である。
我々は、不均衡なデータセット上でSSL表現品質を一貫して改善する、再重み付け正規化手法を考案した。
論文 参考訳(メタデータ) (2021-10-11T06:29:56Z) - Semi-supervised learning objectives as log-likelihoods in a generative
model of data curation [32.45282187405337]
データキュレーションの生成モデルにおいて、SSLの目的をログライクな形式として定式化する。
おもちゃのデータにベイジアンSSLの証明を与える。
論文 参考訳(メタデータ) (2020-08-13T13:50:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。