論文の概要: Private Training Set Inspection in MLaaS
- arxiv url: http://arxiv.org/abs/2305.09058v1
- Date: Mon, 15 May 2023 22:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:50:43.051181
- Title: Private Training Set Inspection in MLaaS
- Title(参考訳): MLaaSにおけるプライベートトレーニングセット検査
- Authors: Mingxue Xu, Tongtong Xu, Po-Yu Chen
- Abstract要約: トレーニングデータセットは一般的に、MLまたはデータ企業のプライベートな所有物である。
顧客は、トレーニングデータセットが彼らの期待を満たし、公正性のような規制措置を満たすことを確認するためのアプローチが必要です。
この研究は、データの起源をエントリポイントとして、この問題を解決する最初の試みである。
- 参考スコア(独自算出の注目度): 6.776479521908241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning as a Service (MLaaS) is a popular cloud-based solution for
customers who aim to use an ML model but lack training data, computation
resources, or expertise in ML. In this case, the training datasets are
typically a private possession of the ML or data companies and are inaccessible
to the customers, but the customers still need an approach to confirm that the
training datasets meet their expectations and fulfil regulatory measures like
fairness. However, no existing work addresses the above customers' concerns.
This work is the first attempt to solve this problem, taking data origin as an
entry point. We first define origin membership measurement and based on this,
we then define diversity and fairness metrics to address customers' concerns.
We then propose a strategy to estimate the values of these two metrics in the
inaccessible training dataset, combining shadow training techniques from
membership inference and an efficient featurization scheme in multiple instance
learning. The evaluation contains an application of text review polarity
classification applications based on the language BERT model. Experimental
results show that our solution can achieve up to 0.87 accuracy for membership
inspection and up to 99.3% confidence in inspecting diversity and fairness
distribution.
- Abstract(参考訳): マシンラーニング・アズ・ア・サービス(MLaaS)は、MLモデルの使用を目指すが、トレーニングデータ、計算リソース、あるいはMLの専門知識が欠如している顧客のための、一般的なクラウドベースのソリューションである。
この場合、トレーニングデータセットは一般的にMLまたはデータ企業のプライベートな所有物であり、顧客にはアクセスできないが、トレーニングデータセットが彼らの期待に応え、公正性のような規制措置を満たすためのアプローチが必要である。
しかし、上記の顧客の懸念に対処する既存の作業は行われていない。
この仕事は、データオリジンをエントリポイントとして、この問題を解決する最初の試みである。
まず、原点メンバーシップの測定を定義し、これに基づいて、顧客の懸念に対処するために多様性と公正度の測定値を定義します。
次に,これら2つの指標の値が到達不能なトレーニングデータセットで推定する手法を提案し,メンバシップ推論によるシャドートレーニング手法と,複数インスタンス学習における効率的な実現手法を組み合わせた。
本評価は,言語BERTモデルに基づくテキストレビュー極性分類の適用を含む。
実験の結果,本ソリューションは,メンバシップインスペクションの精度が最大 0.87 であり,多様性と公平性分布を検査する信頼性が 99.3% に達することがわかった。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Semi-Supervised Federated Learning for Heterogeneous
Participants [23.664515443297674]
そこで本研究では,SFLをクラスタリング正規化して,未ラベルおよび非IIDクライアントデータを用いたより実践的なシナリオ下でSFLを実行する,新しいセミSFLシステムを提案する。
我々のシステムは、トレーニングデータセットの3.0倍のスピードアップを提供し、通信コストを目標精度まで約70.3%削減する。
論文 参考訳(メタデータ) (2023-07-29T02:35:37Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Elastically-Constrained Meta-Learner for Federated Learning [3.032797107899338]
フェデレートラーニング(Federated Learning)とは、データ共有を禁止する複数のパーティを対象とした、協調的な機械学習モデルに対するアプローチである。
フェデレーション学習の課題の1つは、クライアント間の非制約データである。
論文 参考訳(メタデータ) (2023-06-29T05:58:47Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - FedSEAL: Semi-Supervised Federated Learning with Self-Ensemble Learning
and Negative Learning [7.771967424619346]
Federated Learning (FL) は、分散化されたプライバシ保護機械学習(FL)フレームワークとして人気がある。
本稿では,この半教師付きフェデレート学習(SSFL)問題を解くために,FedSEALと呼ばれる新しいFLアルゴリズムを提案する。
提案アルゴリズムは,自己アンサンブル学習と相補的負学習を利用して,未ラベルデータに対するクライアントの教師なし学習の精度と効率を両立させる。
論文 参考訳(メタデータ) (2021-10-15T03:03:23Z) - Federated Multi-Target Domain Adaptation [99.93375364579484]
フェデレートされた学習手法により、プライバシを保護しながら、分散ユーザデータ上で機械学習モデルをトレーニングすることが可能になります。
分散クライアントデータがラベル付けされず、集中型ラベル付きデータセットがサーバ上で利用可能となる、より実用的なシナリオを考えます。
本稿では,新しい課題に対処する効果的なDualAdapt法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:53:05Z) - Unifying Distillation with Personalization in Federated Learning [1.8262547855491458]
Federated Learning(FL)は、クライアントがデータを共有せずに中央アグリゲータを通じて共同作業モデルを学習する分散プライバシ保護学習技術である。
この設定では、すべてのクライアントが単一の共通予測器(FedAvg)を学習する。
本稿では,2段階のパーソナライズされた学習アルゴリズムPersFLを用いてこの問題に対処する。
第1段階では、PersFLはFLトレーニングフェーズにおいて各クライアントの最適な教師モデルを見つけ、第2段階では、PersFLは有用な知識を抽出する。
論文 参考訳(メタデータ) (2021-05-31T17:54:29Z) - Toward Understanding the Influence of Individual Clients in Federated
Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。
em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文 参考訳(メタデータ) (2020-12-20T14:34:36Z) - CatFedAvg: Optimising Communication-efficiency and Classification
Accuracy in Federated Learning [2.2172881631608456]
そこで我々はCatFedAvgというフェデレート学習アルゴリズムを新たに導入した。
コミュニケーション効率は向上するが、NIST戦略のカテゴリカバレッジを用いて学習の質を向上させる。
実験の結果,FedAvgよりもネットワーク転送率が70%低いMデータセットでは,10%の絶対点精度が向上していることがわかった。
論文 参考訳(メタデータ) (2020-11-14T06:52:02Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。