Fugu-MT 論文翻訳(概要): Private Training Set Inspection in MLaaS

論文の概要: Private Training Set Inspection in MLaaS

arxiv url: http://arxiv.org/abs/2305.09058v1
Date: Mon, 15 May 2023 22:56:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 16:50:43.051181
Title: Private Training Set Inspection in MLaaS
Title（参考訳）: MLaaSにおけるプライベートトレーニングセット検査
Authors: Mingxue Xu, Tongtong Xu, Po-Yu Chen
Abstract要約: トレーニングデータセットは一般的に、MLまたはデータ企業のプライベートな所有物である。顧客は、トレーニングデータセットが彼らの期待を満たし、公正性のような規制措置を満たすことを確認するためのアプローチが必要です。この研究は、データの起源をエントリポイントとして、この問題を解決する最初の試みである。
参考スコア（独自算出の注目度）: 6.776479521908241
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine Learning as a Service (MLaaS) is a popular cloud-based solution for customers who aim to use an ML model but lack training data, computation resources, or expertise in ML. In this case, the training datasets are typically a private possession of the ML or data companies and are inaccessible to the customers, but the customers still need an approach to confirm that the training datasets meet their expectations and fulfil regulatory measures like fairness. However, no existing work addresses the above customers' concerns. This work is the first attempt to solve this problem, taking data origin as an entry point. We first define origin membership measurement and based on this, we then define diversity and fairness metrics to address customers' concerns. We then propose a strategy to estimate the values of these two metrics in the inaccessible training dataset, combining shadow training techniques from membership inference and an efficient featurization scheme in multiple instance learning. The evaluation contains an application of text review polarity classification applications based on the language BERT model. Experimental results show that our solution can achieve up to 0.87 accuracy for membership inspection and up to 99.3% confidence in inspecting diversity and fairness distribution.
Abstract（参考訳）: マシンラーニング・アズ・ア・サービス(MLaaS)は、MLモデルの使用を目指すが、トレーニングデータ、計算リソース、あるいはMLの専門知識が欠如している顧客のための、一般的なクラウドベースのソリューションである。この場合、トレーニングデータセットは一般的にMLまたはデータ企業のプライベートな所有物であり、顧客にはアクセスできないが、トレーニングデータセットが彼らの期待に応え、公正性のような規制措置を満たすためのアプローチが必要である。しかし、上記の顧客の懸念に対処する既存の作業は行われていない。この仕事は、データオリジンをエントリポイントとして、この問題を解決する最初の試みである。まず、原点メンバーシップの測定を定義し、これに基づいて、顧客の懸念に対処するために多様性と公正度の測定値を定義します。次に,これら2つの指標の値が到達不能なトレーニングデータセットで推定する手法を提案し,メンバシップ推論によるシャドートレーニング手法と,複数インスタンス学習における効率的な実現手法を組み合わせた。本評価は,言語BERTモデルに基づくテキストレビュー極性分類の適用を含む。実験の結果,本ソリューションは,メンバシップインスペクションの精度が最大 0.87 であり,多様性と公平性分布を検査する信頼性が 99.3% に達することがわかった。

関連論文リスト

Semi-Supervised Federated Learning via Dual Contrastive Learning and Soft Labeling for Intelligent Fault Diagnosis [30.60728200709919]
本稿では,半教師付きフェデレーション学習フレームワークSSFL-DCSLを提案する。デュアルコントラストロスとソフトラベリングを統合して、データに対処し、分散クライアントのラベル不足に対処する。最先端の手法で精度を1.15%から7.85%向上させることができる。
論文参考訳（メタデータ） (2025-07-12T10:54:23Z)
Federated Learning with Unlabeled Clients: Personalization Can Happen in Low Dimensions [16.161876130822396]
FLowDUPは、ラベルのないデータを持つフォワードパスのみを使用してパーソナライズされたモデルを生成することができる。新たなトランスダクティブマルチタスク PAC-Bayesian 一般化バウンダリは、ラベルのないクライアントに対して性能保証を提供する。
論文参考訳（メタデータ） (2025-05-21T14:30:59Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。 EM-MIAはWikiMIAで最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-10T03:31:16Z)
TPFL: Tsetlin-Personalized Federated Learning with Confidence-Based Clustering [0.0]
本稿では,Tsetlin-Personalized Federated Learningと呼ばれる新しい手法を提案する。このように、モデルは特定のクラスに対する信頼性に基づいてクラスタにグループ化される。クライアントは信頼しているものだけを共有し、結果として誤った重み付けが排除される。その結果、TPFLはMNISTで98.94%、FashionMNISTで98.52%、FEMNISTデータセットで91.16%の精度でベースライン法よりも優れた性能を示した。
論文参考訳（メタデータ） (2024-09-16T15:27:35Z)
Adaptive Pre-training Data Detection for Large Language Models via Surprising Tokens [1.2549198550400134]
大きな言語モデル(LLM)は広く使われているが、プライバシー、セキュリティ、著作権については不透明なトレーニングデータのために懸念されている。この問題に対する現在の解決策は、メンバーシップ推論攻撃(MIA)のような機械学習プライバシで探索されたテクニックを活用する。本稿では、この信頼性を軽減し、同定を効果的に増幅する適応型事前学習データ検出法を提案する。
論文参考訳（メタデータ） (2024-07-30T23:43:59Z)
Lightweight Unsupervised Federated Learning with Pretrained Vision Language Model [32.094290282897894]
フェデレートラーニングは、物理的に孤立したクライアントから、ユーザのデータのプライバシを保護しながら、集合モデルをトレーニングすることを目的としている。本稿では,各クライアントのラベルのないデータを活用して,軽量なモデルトレーニングとコミュニケーションを行う,軽量な非教師付きフェデレーション学習手法を提案する。提案手法は,CLIPのゼロショット予測と比較してモデル性能を大幅に向上させるとともに,教師付きフェデレーション学習ベンチマーク手法よりも優れる。
論文参考訳（メタデータ） (2024-04-17T03:42:48Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
FedMIA: An Effective Membership Inference Attack Exploiting "All for One" Principle in Federated Learning [17.141646895576145]
Federated Learning(FL)は、分散データ上で機械学習モデルをトレーニングするための有望なアプローチである。メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットクライアントのトレーニングセットに属するかどうかを判断することを目的としている。我々はFedMIAと呼ばれる3段階のメンバーシップ推論攻撃(MIA)手法を導入し、MIAの有効性を高めるため、複数の通信ラウンドにまたがる全クライアントからの更新を平均化する。
論文参考訳（メタデータ） (2024-02-09T09:58:35Z)
Making Pre-trained Language Models both Task-solvers and Self-calibrators [52.98858650625623]
プレトレーニング言語モデル(PLM)は、様々な現実世界のシステムのバックボーンとして機能する。以前の研究は、余分なキャリブレーションタスクを導入することでこの問題を緩和できることを示している。課題に対処するためのトレーニングアルゴリズムLM-TOASTを提案する。
論文参考訳（メタデータ） (2023-07-21T02:51:41Z)
Personalized Federated Learning under Mixture of Distributions [98.25444470990107]
本稿では,ガウス混合モデル(GMM)を用いたPFL(Personalized Federated Learning)を提案する。 FedGMMはオーバーヘッドを最小限に抑え、新しいクライアントに適応する付加的なアドバンテージを持ち、不確実な定量化を可能にします。 PFL分類と新しいサンプル検出の両方において, 合成データセットとベンチマークデータセットの実証評価により, 提案手法の優れた性能を示した。
論文参考訳（メタデータ） (2023-05-01T20:04:46Z)
FedSEAL: Semi-Supervised Federated Learning with Self-Ensemble Learning and Negative Learning [7.771967424619346]
Federated Learning (FL) は、分散化されたプライバシ保護機械学習(FL)フレームワークとして人気がある。本稿では,この半教師付きフェデレート学習(SSFL)問題を解くために,FedSEALと呼ばれる新しいFLアルゴリズムを提案する。提案アルゴリズムは,自己アンサンブル学習と相補的負学習を利用して,未ラベルデータに対するクライアントの教師なし学習の精度と効率を両立させる。
論文参考訳（メタデータ） (2021-10-15T03:03:23Z)
Unifying Distillation with Personalization in Federated Learning [1.8262547855491458]
Federated Learning(FL)は、クライアントがデータを共有せずに中央アグリゲータを通じて共同作業モデルを学習する分散プライバシ保護学習技術である。この設定では、すべてのクライアントが単一の共通予測器(FedAvg)を学習する。本稿では,2段階のパーソナライズされた学習アルゴリズムPersFLを用いてこの問題に対処する。第1段階では、PersFLはFLトレーニングフェーズにおいて各クライアントの最適な教師モデルを見つけ、第2段階では、PersFLは有用な知識を抽出する。
論文参考訳（メタデータ） (2021-05-31T17:54:29Z)
Toward Understanding the Influence of Individual Clients in Federated Learning [52.07734799278535]
フェデレーションラーニングにより、クライアントはプライベートデータを中央サーバーに送信することなく、グローバルモデルを共同でトレーニングできます。 em-Influenceという新しい概念を定義し、パラメータに対するこの影響を定量化し、このメトリクスを推定する効果的な効率的なモデルを提案しました。
論文参考訳（メタデータ） (2020-12-20T14:34:36Z)
Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。本手法では,クラス毎に20～30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文参考訳（メタデータ） (2020-06-27T08:13:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。