論文の概要: Labels, Information, and Computation: Efficient, Privacy-Preserving
Learning Using Sufficient Labels
- arxiv url: http://arxiv.org/abs/2104.09015v1
- Date: Mon, 19 Apr 2021 02:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 14:34:38.876331
- Title: Labels, Information, and Computation: Efficient, Privacy-Preserving
Learning Using Sufficient Labels
- Title(参考訳): ラベル, 情報, 計算: 十分なラベルを用いた効率的, プライバシー保護学習
- Authors: Shiyu Duan and Jose C. Principe
- Abstract要約: すべてのトレーニング例について,完全なラベル情報が必要な訳ではありません。
この統計を「十分なラベル付きデータ」と呼び、その完全性と効率性を証明する。
十分にラベル付けされたデータは、絶対的な情報ではなく、親戚を格納することで、ユーザのプライバシを自然に保存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In supervised learning, obtaining a large set of fully-labeled training data
is expensive. We show that we do not always need full label information on
every single training example to train a competent classifier. Specifically,
inspired by the principle of sufficiency in statistics, we present a statistic
(a summary) of the fully-labeled training set that captures almost all the
relevant information for classification but at the same time is easier to
obtain directly. We call this statistic "sufficiently-labeled data" and prove
its sufficiency and efficiency for finding the optimal hidden representations,
on which competent classifier heads can be trained using as few as a single
randomly-chosen fully-labeled example per class. Sufficiently-labeled data can
be obtained from annotators directly without collecting the fully-labeled data
first. And we prove that it is easier to directly obtain sufficiently-labeled
data than obtaining fully-labeled data. Furthermore, sufficiently-labeled data
naturally preserves user privacy by storing relative, instead of absolute,
information. Extensive experimental results are provided to support our theory.
- Abstract(参考訳): 教師付き学習では、大量の完全ラベル付きトレーニングデータを取得するのが高価である。
有能な分類器を訓練するには、すべてのトレーニング例の完全なラベル情報を必ずしも必要としないことを示す。
具体的には、統計学における十分性の原理に着想を得て、ほぼ全ての関連情報を分類するが、同時に直接入手しやすい完全ラベル付きトレーニングセットの統計(要約)を示す。
我々は、この統計データを「十分ラベル付きデータ」と呼び、クラス毎に1つのランダムな完全ラベル付き例を用いて、有能な分類器ヘッドを訓練できる最適な隠れ表現を見つけるための、その十分性と効率性を証明する。
完全なラベル付きデータを最初に収集することなく、アノテータから直接十分なラベル付きデータを得ることができる。
また、完全ラベルデータを得るよりも、十分なラベルデータを直接取得することが容易であることが証明される。
さらに、十分にラベルされたデータは、絶対的な情報ではなく、相対的な情報を格納することで、自然にユーザーのプライバシーを保ちます。
我々の理論を支持するために広範な実験結果が得られた。
関連論文リスト
- FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Doubly Robust Self-Training [46.168395767948965]
本稿では,新しい半教師付きアルゴリズムである二重頑健な自己学習を導入する。
通常の自己学習ベースラインよりも2倍頑健な損失の優位性を実証する。
論文 参考訳(メタデータ) (2023-06-01T00:57:16Z) - Q-Match: Self-supervised Learning by Matching Distributions Induced by a
Queue [6.1678491628787455]
提案アルゴリズムであるQ-Matchを導入し,下流クラスに関する知識を必要とせずに,生徒と教師の分布を推定可能であることを示す。
本手法は, ダウンストリームトレーニングに必要なラベルと事前学習に必要なラベルなしデータの量の両方を指標として, サンプリング効率が高く, ラベル付きデータとラベルなしデータの双方のサイズによく対応していることを示す。
論文 参考訳(メタデータ) (2023-02-10T18:59:05Z) - Trustable Co-label Learning from Multiple Noisy Annotators [68.59187658490804]
監督されたディープラーニングは、大量の注釈付き例に依存している。
典型的な方法は、複数のノイズアノテータから学習することである。
本稿では,emphTrustable Co-label Learning (TCL)と呼ばれるデータ効率のよい手法を提案する。
論文 参考訳(メタデータ) (2022-03-08T16:57:00Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Unsupervised Selective Labeling for More Effective Semi-Supervised
Learning [46.414510522978425]
教師なしの選択的なラベル付けは、与えられたラベル付きデータの最先端のアクティブラーニングよりもSSLメソッドを一貫して改善する。
私たちの仕事は、実用的で効率的なSSLの新しい標準を設定します。
論文 参考訳(メタデータ) (2021-10-06T18:25:50Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z) - Self-semi-supervised Learning to Learn from NoisyLabeled Data [3.18577806302116]
高品質なラベル付きデータを得るには費用がかかるため、ノイズの多いラベルに頑健なトレーニングモデルの活発な研究領域につながる。
本研究では,クリーンでノイズの多いラベルをより正確に区別する手法を考案し,ノイズの多いラベル付きデータを学習するために自己半教師付き学習の知恵を借りた。
論文 参考訳(メタデータ) (2020-11-03T02:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。