論文の概要: Private Training Set Inspection in MLaaS
- arxiv url: http://arxiv.org/abs/2305.09058v1
- Date: Mon, 15 May 2023 22:56:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 16:50:43.051181
- Title: Private Training Set Inspection in MLaaS
- Title(参考訳): MLaaSにおけるプライベートトレーニングセット検査
- Authors: Mingxue Xu, Tongtong Xu, Po-Yu Chen
- Abstract要約: トレーニングデータセットは一般的に、MLまたはデータ企業のプライベートな所有物である。
顧客は、トレーニングデータセットが彼らの期待を満たし、公正性のような規制措置を満たすことを確認するためのアプローチが必要です。
この研究は、データの起源をエントリポイントとして、この問題を解決する最初の試みである。
- 参考スコア(独自算出の注目度): 6.776479521908241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning as a Service (MLaaS) is a popular cloud-based solution for
customers who aim to use an ML model but lack training data, computation
resources, or expertise in ML. In this case, the training datasets are
typically a private possession of the ML or data companies and are inaccessible
to the customers, but the customers still need an approach to confirm that the
training datasets meet their expectations and fulfil regulatory measures like
fairness. However, no existing work addresses the above customers' concerns.
This work is the first attempt to solve this problem, taking data origin as an
entry point. We first define origin membership measurement and based on this,
we then define diversity and fairness metrics to address customers' concerns.
We then propose a strategy to estimate the values of these two metrics in the
inaccessible training dataset, combining shadow training techniques from
membership inference and an efficient featurization scheme in multiple instance
learning. The evaluation contains an application of text review polarity
classification applications based on the language BERT model. Experimental
results show that our solution can achieve up to 0.87 accuracy for membership
inspection and up to 99.3% confidence in inspecting diversity and fairness
distribution.
- Abstract(参考訳): マシンラーニング・アズ・ア・サービス(MLaaS)は、MLモデルの使用を目指すが、トレーニングデータ、計算リソース、あるいはMLの専門知識が欠如している顧客のための、一般的なクラウドベースのソリューションである。
この場合、トレーニングデータセットは一般的にMLまたはデータ企業のプライベートな所有物であり、顧客にはアクセスできないが、トレーニングデータセットが彼らの期待に応え、公正性のような規制措置を満たすためのアプローチが必要である。
しかし、上記の顧客の懸念に対処する既存の作業は行われていない。
この仕事は、データオリジンをエントリポイントとして、この問題を解決する最初の試みである。
まず、原点メンバーシップの測定を定義し、これに基づいて、顧客の懸念に対処するために多様性と公正度の測定値を定義します。
次に,これら2つの指標の値が到達不能なトレーニングデータセットで推定する手法を提案し,メンバシップ推論によるシャドートレーニング手法と,複数インスタンス学習における効率的な実現手法を組み合わせた。
本評価は,言語BERTモデルに基づくテキストレビュー極性分類の適用を含む。
実験の結果,本ソリューションは,メンバシップインスペクションの精度が最大 0.87 であり,多様性と公平性分布を検査する信頼性が 99.3% に達することがわかった。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - TPFL: Tsetlin-Personalized Federated Learning with Confidence-Based Clustering [0.0]
本稿では,Tsetlin-Personalized Federated Learningと呼ばれる新しい手法を提案する。
このように、モデルは特定のクラスに対する信頼性に基づいてクラスタにグループ化される。
クライアントは信頼しているものだけを共有し、結果として誤った重み付けが排除される。
その結果、TPFLはMNISTで98.94%、FashionMNISTで98.52%、FEMNISTデータセットで91.16%の精度でベースライン法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-16T15:27:35Z) - Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。
この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。
本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文 参考訳(メタデータ) (2024-07-30T23:43:59Z) - Lightweight Unsupervised Federated Learning with Pretrained Vision Language Model [32.094290282897894]
フェデレートラーニングは、物理的に孤立したクライアントから、ユーザのデータのプライバシを保護しながら、集合モデルをトレーニングすることを目的としている。
本稿では,各クライアントのラベルのないデータを活用して,軽量なモデルトレーニングとコミュニケーションを行う,軽量な非教師付きフェデレーション学習手法を提案する。
提案手法は,CLIPのゼロショット予測と比較してモデル性能を大幅に向上させるとともに,教師付きフェデレーション学習ベンチマーク手法よりも優れる。
論文 参考訳(メタデータ) (2024-04-17T03:42:48Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Making Pre-trained Language Models both Task-solvers and
Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。
以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。
課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文 参考訳(メタデータ) (2023-07-21T02:51:41Z) - Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。
FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。
PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文 参考訳(メタデータ) (2023-05-01T20:04:46Z) - FedSEAL: Semi-Supervised Federated Learning with Self-Ensemble Learning
and Negative Learning [7.771967424619346]
Federated Learning (FL) は、分散化されたプライバシ保護機械学習(FL)フレームワークとして人気がある。
本稿では,この半教師付きフェデレート学習(SSFL)問題を解くために,FedSEALと呼ばれる新しいFLアルゴリズムを提案する。
提案アルゴリズムは,自己アンサンブル学習と相補的負学習を利用して,未ラベルデータに対するクライアントの教師なし学習の精度と効率を両立させる。
論文 参考訳(メタデータ) (2021-10-15T03:03:23Z) - Unifying Distillation with Personalization in Federated Learning [1.8262547855491458]
Federated Learning(FL)は、クライアントがデータを共有せずに中央アグリゲータを通じて共同作業モデルを学習する分散プライバシ保護学習技術である。
この設定では、すべてのクライアントが単一の共通予測器(FedAvg)を学習する。
本稿では,2段階のパーソナライズされた学習アルゴリズムPersFLを用いてこの問題に対処する。
第1段階では、PersFLはFLトレーニングフェーズにおいて各クライアントの最適な教師モデルを見つけ、第2段階では、PersFLは有用な知識を抽出する。
論文 参考訳(メタデータ) (2021-05-31T17:54:29Z) - Toward Understanding the Influence of Individual Clients in Federated
Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。
em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文 参考訳(メタデータ) (2020-12-20T14:34:36Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。