論文の概要: On the Sample Complexity of Adversarial Multi-Source PAC Learning
- arxiv url: http://arxiv.org/abs/2002.10384v2
- Date: Tue, 30 Jun 2020 14:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:10:45.108482
- Title: On the Sample Complexity of Adversarial Multi-Source PAC Learning
- Title(参考訳): 逆多重ソースPAC学習のサンプル複雑さについて
- Authors: Nikola Konstantinov, Elias Frantar, Dan Alistarh, Christoph H. Lampert
- Abstract要約: 単一ソース設定では、トレーニングデータの一定割合を破損させるパワーを持つ相手がPAC学習を防止できる。
意外なことに、マルチソース設定では、敵が任意にデータソースの固定された部分を破壊することができるため、同じことが当てはまらない。
また, 他者とのデータ共有を協調的に行うことで, 悪意のある参加者でも有益であることが示唆された。
- 参考スコア(独自算出の注目度): 46.24794665486056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of learning from multiple untrusted data sources, a
scenario of increasing practical relevance given the recent emergence of
crowdsourcing and collaborative learning paradigms. Specifically, we analyze
the situation in which a learning system obtains datasets from multiple
sources, some of which might be biased or even adversarially perturbed. It is
known that in the single-source case, an adversary with the power to corrupt a
fixed fraction of the training data can prevent PAC-learnability, that is, even
in the limit of infinitely much training data, no learning system can approach
the optimal test error. In this work we show that, surprisingly, the same is
not true in the multi-source setting, where the adversary can arbitrarily
corrupt a fixed fraction of the data sources. Our main results are a
generalization bound that provides finite-sample guarantees for this learning
setting, as well as corresponding lower bounds. Besides establishing
PAC-learnability our results also show that in a cooperative learning setting
sharing data with other parties has provable benefits, even if some
participants are malicious.
- Abstract(参考訳): 本稿では,クラウドソーシングと協調学習パラダイムの近年の出現を踏まえ,複数の信頼できないデータソースから学習することの課題について考察する。
具体的には,学習システムが複数の情報源からデータセットを取得する状況を分析する。
単一ソースの場合、トレーニングデータの一定割合を破損するパワーを持つ敵がPAC学習性を防止することが知られており、無限に多くのトレーニングデータの制限下であっても、最適なテストエラーにアプローチする学習システムは存在しない。
この研究で、意外なことに、マルチソース設定では、敵が任意にデータソースの一定割合を破壊できる場合において、同じことが正しくないことが示される。
我々の主な結果は、この学習条件に対する有限サンプル保証と対応する下界を提供する一般化境界である。
パックリーナビリティを確立することに加えて,共同学習では,悪意のある参加者であっても,他者とデータを共有することのメリットが証明可能であることも示しています。
関連論文リスト
- The Curse of Diversity in Ensemble-Based Exploration [7.209197316045156]
データ共有エージェントの多様なアンサンブルの訓練は、個々のアンサンブルメンバーのパフォーマンスを著しく損なう可能性がある。
私たちはこの現象を多様性の呪いと呼んでいる。
多様性の呪いに対処する表現学習の可能性を示す。
論文 参考訳(メタデータ) (2024-05-07T14:14:50Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z) - Investigating Multi-source Active Learning for Natural Language
Inference [34.18663328309923]
本研究では,自然言語推論のタスクにおいて,複数のデータソースからなる乱数プールに適用した場合,一般的な4つのアクティブ学習方式がランダム選択よりも優れていることを示す。
我々は,不確実性に基づく戦略が,集団的アウトリージの獲得によって不確実性が低下していることを明らかにする。
さらなる分析では、集団のアウトリーチはソース間で形式的に変化し、ハード・トゥ・ラーンデータが必ずしも分類的に有害であるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-02-14T11:10:18Z) - Non-IID data and Continual Learning processes in Federated Learning: A
long road ahead [58.720142291102135]
フェデレートラーニング(Federated Learning)は、複数のデバイスや機関が、データをプライベートに保存しながら、機械学習モデルを協調的にトレーニングすることを可能にする、新しいフレームワークである。
本研究では,データの統計的不均一性を正式に分類し,それに直面することのできる最も顕著な学習戦略をレビューする。
同時に、継続学習のような他の機械学習フレームワークからのアプローチを導入し、データの不均一性にも対処し、フェデレートラーニング設定に容易に適応できるようにします。
論文 参考訳(メタデータ) (2021-11-26T09:57:11Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - FLEA: Provably Fair Multisource Learning from Unreliable Training Data [28.382147902475545]
FLEAは,公正性や正確性に悪影響を及ぼす可能性のあるデータソースを,学習システムが識別し,抑制することのできるフィルタリングベースのアルゴリズムである。
複数のデータセットに対する多種多様な実験により,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-06-22T13:09:45Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Probabilistic Inference for Learning from Untrusted Sources [6.811310452498163]
フェデレーション学習は、より速い学習、より良いソリューション、異なる当事者からの異種データが多様性を高めると転送するより大きな可能性の潜在的な利点をもたらします。
集約アルゴリズムが非IIDデータや破損した当事者に対して堅牢であることは重要です。
最近の研究では、識別を行うためのtextitreferenceデータセットが利用可能であると仮定している。
このような参照データセットが利用できない設定を検討します。むしろ、パーティの品質と適合性はtextitinferredでなければなりません。
本稿では,パーティの品質に適応したベイズ推論に基づく新しい連合学習集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-15T15:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。