論文の概要: Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models (Extended Version)
- arxiv url: http://arxiv.org/abs/2407.08152v2
- Date: Wed, 04 Dec 2024 17:56:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:06:15.100035
- Title: Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models (Extended Version)
- Title(参考訳): 言語モデルのフェデレーション学習を促進するためのプライバシ保護データ重複(拡張版)
- Authors: Aydin Abadi, Vishnu Asutosh Dasu, Sumanta Sarkar,
- Abstract要約: 先駆的プロトコル, 効率的なプライバシ保護多人数重複(EP-MPD)を導入する。
EP-MPDはデータのプライバシを損なうことなく、複数のクライアントのデータセットからの重複を効率的に除去する。
本実験は,大規模言語モデルの連合学習における重複解消の意義を実証するものである。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License:
- Abstract: Deduplication is a vital preprocessing step that enhances machine learning model performance and saves training time and energy. However, enhancing federated learning through deduplication poses challenges, especially regarding scalability and potential privacy violations if deduplication involves sharing all clients' data. In this paper, we address the problem of deduplication in a federated setup by introducing a pioneering protocol, Efficient Privacy-Preserving Multi-Party Deduplication (EP-MPD). It efficiently removes duplicates from multiple clients' datasets without compromising data privacy. EP-MPD is constructed in a modular fashion, utilizing two novel variants of the Private Set Intersection protocol. Our extensive experiments demonstrate the significant benefits of deduplication in federated learning of large language models. For instance, we observe up to 19.62\% improvement in perplexity and up to 27.95\% reduction in running time while varying the duplication level between 10\% and 30\%. EP-MPD effectively balances privacy and performance in federated learning, making it a valuable solution for large-scale applications.
- Abstract(参考訳): 重複は、機械学習モデルのパフォーマンスを高め、トレーニング時間とエネルギーを節約する重要な前処理ステップである。
しかしながら、重複解消による連合学習の強化は、特に、重複解消がすべてのクライアントのデータ共有に関わる場合、スケーラビリティと潜在的なプライバシー侵害に関する課題を引き起こす。
本稿では,EP-MPD(Efficient Privacy-Preserving Multi-Party Deduplication)という先駆的なプロトコルを導入することで,フェデレートされたセットアップにおける重複解消の問題に対処する。
データのプライバシを損なうことなく、複数のクライアントのデータセットからの重複を効率的に除去する。
EP-MPDは、Private Set Intersectionプロトコルの2つの新しい変種を利用してモジュール方式で構築されている。
大規模言語モデルの連合学習における重複の顕著な利点を実証した。
例えば、パープレキシティ19.62\%の改善とランニング時間の最大27.95\%削減を観察し、重複レベルを10\%から30\%に変化させた。
EP-MPDは、フェデレーション学習におけるプライバシとパフォーマンスのバランスを効果的に保ち、大規模なアプリケーションにとって価値のあるソリューションである。
関連論文リスト
- FedUHB: Accelerating Federated Unlearning via Polyak Heavy Ball Method [17.720414283108727]
モデルから特定のデータの影響を効果的に除去するために、フェデレート・アンラーニング(FU)が開発された。
我々は,Polyakヘビーボール最適化技術を活用した,新しい非学習手法であるFedUHBを提案する。
実験の結果,FedUHBは学習効率を向上するだけでなく,学習後の頑健なモデル性能も維持できることがわかった。
論文 参考訳(メタデータ) (2024-11-17T11:08:49Z) - Pencil: Private and Extensible Collaborative Learning without the Non-Colluding Assumption [24.339382371386876]
Pencilは、データプライバシ、モデルのプライバシ、拡張性を複数のデータプロバイダに同時に提供する、共同学習のための最初のプライベートトレーニングフレームワークである。
この設計原則を実現し、厳密なセキュリティとプライバシ分析を行うために、新しい暗号プロトコルをいくつか導入する。
Pencilは10260倍のスループットと2桁の通信速度を実現している。
論文 参考訳(メタデータ) (2024-03-17T10:26:41Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Evaluating Privacy Leakage in Split Learning [8.841387955312669]
オンデバイス機械学習は、推論中にサードパーティサーバと生データを共有しないようにする。
Split Learning(SL)は、制限を克服できる有望なアプローチである。
SLでは、大きな機械学習モデルが2つの部分に分割され、大きな部分はサーバ側にあり、小さな部分はデバイス上で実行される。
論文 参考訳(メタデータ) (2023-05-22T13:00:07Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。