論文の概要: FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning
- arxiv url: http://arxiv.org/abs/2403.06131v2
- Date: Thu, 20 Jun 2024 13:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 04:49:43.325242
- Title: FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning
- Title(参考訳): FewFedPIT: プライバシ保護とFew-shoted Instruction Tuning
- Authors: Zhuo Zhang, Jingyuan Zhang, Jintao Huang, Lizhen Qu, Hongzhi Zhang, Qifan Wang, Xun Zhou, Zenglin Xu,
- Abstract要約: フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
- 参考スコア(独自算出の注目度): 54.26614091429253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction tuning has been identified as a crucial technique for optimizing the performance of large language models (LLMs) in generating human-aligned responses. Nonetheless, gathering diversified and superior-quality instruction data for such tuning presents notable obstacles, especially in domains with rigid privacy provisions. Federated instruction tuning (FedIT) has emerged as a promising solution, by consolidating collaborative training across multiple data owners, thereby resulting in a privacy-preserving learning model. However, FedIT encounters limitations such as scarcity of instructional data and risk of exposure to training data extraction attacks. In this paper, we propose a novel federated algorithm, FewFedPIT, designed to simultaneously enhance privacy protection and model performance of federated few-shot learning. FewFedPITcomprises three vital components on the client side: (1) synthetic data generation, which utilizes LLMs' in-context learning capacity to generate synthetic data autonomously, thus expanding the local database; (2) parameter isolation training, which individually updates the public parameters in the synthetic data and the private parameters in the local data, consequently mitigating the noise impact of the synthetic data; (3) local aggregation sharing, which mixes public and private parameters before uploading, effectively preventing data extraction attacks. Extensive experiments on three open-source datasets demonstrate the effectiveness of FewFedPITin, enhancing privacy preservation and improving federated few-shot performance.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能を最適化するための重要な手法として,インストラクションチューニングが注目されている。
それにもかかわらず、このようなチューニングのための多彩で高品質な指導データを集めることは、特に厳格なプライバシー規定を持つドメインにおいて顕著な障害となる。
フェデレートされたインストラクションチューニング(FedIT)は、複数のデータオーナ間で協調的なトレーニングを統合することで、将来性のあるソリューションとして登場した。
しかし、FedITは、訓練データの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITという新しいフェデレーションアルゴリズムを提案する。
FewFedPITは,(1)LLMのインコンテキスト学習能力を利用して合成データを自動生成し,ローカルデータベースを拡張した合成データ生成,(2)合成データの公開パラメータとローカルデータのプライベートパラメータを個別に更新するパラメータ分離トレーニング,(3)アップロード前の公開パラメータとプライベートパラメータを混合したローカルアグリゲーション共有,そして,データ抽出攻撃を効果的に防止する。
3つのオープンソースデータセットに対する大規模な実験は、FewFedPITinの有効性を示し、プライバシーの保護を強化し、フェデレートされた数ショットのパフォーマンスを改善している。
関連論文リスト
- Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
テキストの匿名化は、プライバシーを維持しながら機密データを共有するために重要である。
既存の技術は、大規模言語モデルの再識別攻撃能力の新たな課題に直面している。
本稿では,3つのLCMベースコンポーネント – プライバシ評価器,ユーティリティ評価器,最適化コンポーネント – で構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Personalized Federated Learning with Attention-based Client Selection [57.71009302168411]
我々は,意図に基づくクライアント選択機構を備えた新しいPFLアルゴリズムであるFedACSを提案する。
FedACSは、類似したデータ分散を持つクライアント間のコラボレーションを強化するためのアテンションメカニズムを統合している。
CIFAR10とFMNISTの実験は、FedACSの優位性を検証する。
論文 参考訳(メタデータ) (2023-12-23T03:31:46Z) - Federated Learning Empowered by Generative Content [55.576885852501775]
フェデレートラーニング(FL)は、プライバシ保護方法でモデルのトレーニングに分散プライベートデータを活用可能にする。
本稿では,FedGCと呼ばれる新しいFLフレームワークを提案する。
我々は、さまざまなベースライン、データセット、シナリオ、モダリティをカバーする、FedGCに関する体系的な実証的研究を行う。
論文 参考訳(メタデータ) (2023-12-10T07:38:56Z) - Approximate, Adapt, Anonymize (3A): a Framework for Privacy Preserving
Training Data Release for Machine Learning [3.29354893777827]
データリリースフレームワークである3A(Approximate, Adapt, Anonymize)を導入し、機械学習のデータユーティリティを最大化する。
本稿では,実データセットと民生データセットでトレーニングしたモデルの性能指標の相違が最小限に抑えられることを示す実験的な証拠を示す。
論文 参考訳(メタデータ) (2023-07-04T18:37:11Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Federated Learning in Non-IID Settings Aided by Differentially Private
Synthetic Data [20.757477553095637]
Federated Learning(FL)は、クライアントが機械学習モデルを協調的にトレーニングすることを可能にする、プライバシプロモーティングフレームワークである。
連合学習における大きな課題は、局所データが不均一であるときに生じる。
我々は、クライアントが変動自動エンコーダをデプロイして、遅延データ表現の微分プライベートな手段を用いて、ローカルデータセットを合成するFLアルゴリズムであるFedDPMSを提案する。
論文 参考訳(メタデータ) (2022-06-01T18:00:48Z) - LDP-FL: Practical Private Aggregation in Federated Learning with Local
Differential Privacy [20.95527613004989]
フェデレーション学習は、実際のデータではなく、局所的な勾配情報を収集するプライバシー保護のための一般的なアプローチである。
それまでの作業は3つの問題により現実的な解決には至らなかった。
最後に、ディープラーニングモデルにおける重みの高次元性により、プライバシー予算が爆発的に膨らみます。
論文 参考訳(メタデータ) (2020-07-31T01:08:57Z) - Differentially Private Federated Learning with Laplacian Smoothing [72.85272874099644]
フェデレートラーニングは、ユーザ間でプライベートデータを共有せずに、協調的にモデルを学習することで、データのプライバシを保護することを目的としている。
敵は、リリースしたモデルを攻撃することによって、プライベートトレーニングデータを推測することができる。
差別化プライバシは、トレーニングされたモデルの正確性や実用性を著しく低下させる価格で、このような攻撃に対する統計的保護を提供する。
論文 参考訳(メタデータ) (2020-05-01T04:28:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。