論文の概要: SoK: Training Machine Learning Models over Multiple Sources with Privacy
Preservation
- arxiv url: http://arxiv.org/abs/2012.03386v1
- Date: Sun, 6 Dec 2020 22:24:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:52:09.122958
- Title: SoK: Training Machine Learning Models over Multiple Sources with Privacy
Preservation
- Title(参考訳): SoK: プライバシ保護による複数のソース上でのマシンラーニングモデルのトレーニング
- Authors: Lushan Song, Haoqi Wu, Wenqiang Ruan, Weili Han
- Abstract要約: プライバシ保護を伴う複数のデータコントローラからの高品質なトレーニングデータは、高品質な機械学習モデルをトレーニングする上で重要な課題である。
学術研究者と産業ベンダーの双方が,(1)セキュア多人数学習(MPL)と(2)フェデレートラーニング(FL)の2つのソリューションのメインストリームフォルダーを提案する動機付けが強くなっている。
これら2つのソリューションには、プライバシ保護、通信方法、通信オーバーヘッド、データのフォーマット、トレーニング済みモデルの正確性、アプリケーションシナリオから評価する際のメリットと制限があります。
- 参考スコア(独自算出の注目度): 1.567576360103422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, gathering high-quality training data from multiple data controllers
with privacy preservation is a key challenge to train high-quality machine
learning models. The potential solutions could dramatically break the barriers
among isolated data corpus, and consequently enlarge the range of data
available for processing. To this end, both academia researchers and industrial
vendors are recently strongly motivated to propose two main-stream folders of
solutions: 1) Secure Multi-party Learning (MPL for short); and 2) Federated
Learning (FL for short). These two solutions have their advantages and
limitations when we evaluate them from privacy preservation, ways of
communication, communication overhead, format of data, the accuracy of trained
models, and application scenarios.
Motivated to demonstrate the research progress and discuss the insights on
the future directions, we thoroughly investigate these protocols and frameworks
of both MPL and FL. At first, we define the problem of training machine
learning models over multiple data sources with privacy-preserving (TMMPP for
short). Then, we compare the recent studies of TMMPP from the aspects of the
technical routes, parties supported, data partitioning, threat model, and
supported machine learning models, to show the advantages and limitations.
Next, we introduce the state-of-the-art platforms which support online training
over multiple data sources. Finally, we discuss the potential directions to
resolve the problem of TMMPP.
- Abstract(参考訳): 現在、プライバシー保護を伴う複数のデータコントローラから高品質なトレーニングデータを集めることは、高品質な機械学習モデルをトレーニングするための重要な課題である。
潜在的ソリューションは、分離されたデータコーパス間の障壁を劇的に破壊し、結果として処理可能なデータ範囲を拡大する可能性がある。
この目的のために、学界の研究者と工業ベンダーは、最近、1)セキュアなマルチパーティ学習(mpl)、2)フェデレーション学習(fl)という2つの主要なストリームフォルダーを提案することに強く動機づけられている。
これら2つのソリューションには、プライバシ保護、通信方法、通信オーバーヘッド、データのフォーマット、トレーニング済みモデルの正確性、アプリケーションシナリオから評価する際のメリットと制限があります。
研究の進展を実証し、今後の方向性に関する洞察を議論するために、mplとflの両方のプロトコルとフレームワークを徹底的に調査した。
まず、プライバシ保存(TMMPP)を用いた複数のデータソース上で機械学習モデルをトレーニングする問題を定義する。
次に、TMMPPの最近の研究を、技術ルート、パーティのサポート、データパーティショニング、脅威モデル、サポート対象機械学習モデルといった側面から比較し、利点と限界を示す。
次に、複数のデータソース上でオンライントレーニングをサポートする最先端プラットフォームを紹介する。
最後に、TMMPPの課題を解決するための潜在的な方向性について論じる。
関連論文リスト
- Federated Large Language Models: Current Progress and Future Directions [63.68614548512534]
本稿では,LLM(FedLLM)のフェデレーション学習について調査し,最近の進歩と今後の方向性を明らかにする。
ファインチューニングと迅速な学習という2つの重要な側面に注目し、既存の作業と関連する研究課題について議論する。
論文 参考訳(メタデータ) (2024-09-24T04:14:33Z) - Federated Learning driven Large Language Models for Swarm Intelligence: A Survey [2.769238399659845]
Federated Learning (FL)は、大規模言語モデル(LLM)をトレーニングするための魅力的なフレームワークを提供する
私たちは機械学習に重点を置いています。これは、忘れられる権利のようなプライバシー規則に従う上で重要な側面です。
摂動技術やモデル分解,漸進学習など,効果的なアンラーニングを可能にするさまざまな戦略を探求する。
論文 参考訳(メタデータ) (2024-06-14T08:40:58Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective [16.487545258246932]
現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
論文 参考訳(メタデータ) (2023-11-27T13:14:39Z) - Zero-knowledge Proof Meets Machine Learning in Verifiability: A Survey [19.70499936572449]
高品質なモデルは、効率的な最適化アルゴリズムだけでなく、膨大なデータと計算能力に基づいて構築されたトレーニングと学習プロセスにも依存する。
計算リソースの制限やデータプライバシの懸念など,さまざまな課題があるため,モデルを必要とするユーザは,マシンラーニングモデルをローカルにトレーニングすることはできないことが多い。
本稿では,ゼロ知識証明に基づく検証可能な機械学習(ZKP-VML)技術について包括的に調査する。
論文 参考訳(メタデータ) (2023-10-23T12:15:23Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Privacy Side Channels in Machine Learning Systems [87.53240071195168]
プライバシサイドチャネルは、システムレベルのコンポーネントを利用してプライベート情報を抽出する攻撃である。
例えば、差分プライベートなトレーニングを適用する前にトレーニングデータを重複させることで、保証可能なプライバシ保証を完全に無効にするサイドチャネルが生成されることを示す。
さらに,学習データセットに含まれる秘密鍵を抽出するために,言語モデルを学習データ再生からブロックするシステムを利用することを示す。
論文 参考訳(メタデータ) (2023-09-11T16:49:05Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Fusion of Federated Learning and Industrial Internet of Things: A Survey [4.810675235074399]
産業モノのインターネット(IIoT)は産業4.0の概念のための新しいパラダイムを構築し、新しい産業時代のための洞察を与えます。
スマートマシンとスマートファクトリは、インテリジェンス獲得に機械学習/ディープラーニングベースのモデルを使用する。
この問題を解決するために、フェデレーションラーニング(FL)技術がIIoTに実装され、研究者は安全、正確、堅牢、および偏見のないモデルを提供しています。
論文 参考訳(メタデータ) (2021-01-04T06:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。