論文の概要: Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models
- arxiv url: http://arxiv.org/abs/2407.08152v1
- Date: Thu, 11 Jul 2024 03:10:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 19:08:29.547702
- Title: Privacy-Preserving Data Deduplication for Enhancing Federated Learning of Language Models
- Title(参考訳): 言語モデルのフェデレーション学習を促進するためのプライバシ保護データ重複
- Authors: Aydin Abadi, Vishnu Asutosh Dasu, Sumanta Sarkar,
- Abstract要約: 先駆的プロトコル, 効率的なプライバシ保護多人数重複(EP-MPD)を導入する。
EP-MPDはデータのプライバシを損なうことなく、複数のクライアントのデータセットからの重複を効率的に除去する。
パープレキシティを最大19.61%改善し、ランニングタイムを最大27.95%削減する。
- 参考スコア(独自算出の注目度): 2.048226951354646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deduplication is a vital preprocessing step that enhances machine learning model performance and saves training time and energy. However, enhancing federated learning through deduplication poses challenges, especially regarding scalability and potential privacy violations if deduplication involves sharing all clients' data. In this paper, we address the problem of deduplication in a federated setup by introducing a pioneering protocol, Efficient Privacy-Preserving Multi-Party Deduplication (EP-MPD). It efficiently removes duplicates from multiple clients' datasets without compromising data privacy. EP-MPD is constructed in a modular fashion, utilizing two novel variants of the Private Set Intersection protocol. Our extensive experiments demonstrate the significant benefits of deduplication in federated learning of large language models. For instance, we observe up to 19.61% improvement in perplexity and up to 27.95% reduction in running time. EP-MPD effectively balances privacy and performance in federated learning, making it a valuable solution for large-scale applications.
- Abstract(参考訳): 重複は、機械学習モデルのパフォーマンスを高め、トレーニング時間とエネルギーを節約する重要な前処理ステップである。
しかしながら、重複解消による連合学習の強化は、特に、重複解消がすべてのクライアントのデータ共有に関わる場合、スケーラビリティと潜在的なプライバシー侵害に関する課題を引き起こす。
本稿では,EP-MPD(Efficient Privacy-Preserving Multi-Party Deduplication)という先駆的なプロトコルを導入することで,フェデレートされたセットアップにおける重複解消の問題に対処する。
データのプライバシを損なうことなく、複数のクライアントのデータセットからの重複を効率的に除去する。
EP-MPDは、Private Set Intersectionプロトコルの2つの新しい変種を利用してモジュール方式で構築されている。
大規模言語モデルの連合学習における重複の顕著な利点を実証した。
例えば、パープレキシティを最大19.61%改善し、ランニングタイムを最大27.95%削減する。
EP-MPDは、フェデレーション学習におけるプライバシとパフォーマンスのバランスを効果的に保ち、大規模なアプリケーションにとって価値のあるソリューションである。
関連論文リスト
- Privacy-Preserving Personalized Federated Prompt Learning for Multimodal Large Language Models [11.747329476179223]
パーソナライゼーションと一般化のバランスをとる上での課題に対処するために,DP-FPL(Dis differentially Private Federated Prompt Learning)アプローチを提案する。
本手法は,プライバシノイズがモデル性能に与える影響を軽減し,パーソナライゼーションと一般化のトレードオフを緩和する。
論文 参考訳(メタデータ) (2025-01-23T18:34:09Z) - DP-MemArc: Differential Privacy Transfer Learning for Memory Efficient Language Models [29.147695134795146]
DP-MemArcは,大規模言語モデルのメモリコスト削減を目的とした,新たなトレーニングフレームワークである。
DP-MemArcは、異なるタスクシナリオに対して、効果的なプライバシー効率の微調整を提供する。
論文 参考訳(メタデータ) (2024-06-16T22:11:41Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Evaluating Privacy Leakage in Split Learning [8.841387955312669]
オンデバイス機械学習は、推論中にサードパーティサーバと生データを共有しないようにする。
Split Learning(SL)は、制限を克服できる有望なアプローチである。
SLでは、大きな機械学習モデルが2つの部分に分割され、大きな部分はサーバ側にあり、小さな部分はデバイス上で実行される。
論文 参考訳(メタデータ) (2023-05-22T13:00:07Z) - Decentralized Learning with Multi-Headed Distillation [12.90857834791378]
プライベートデータによる分散学習は、機械学習の中心的な問題である。
本研究では, 個別の非IDデータを持つ複数のエージェントが相互に学習できる, 蒸留に基づく分散学習手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T21:01:43Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。