論文の概要: Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs
- arxiv url: http://arxiv.org/abs/2502.05087v2
- Date: Thu, 27 Feb 2025 11:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:55:16.410808
- Title: Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs
- Title(参考訳): LLMのフェデレーション学習におけるLoRAによる意図しない記憶の軽減
- Authors: Thierry Bossy, Julien Vignoud, Tahseen Rabbani, Juan R. Troncoso Pastoriza, Martin Jaggi,
- Abstract要約: フェデレートラーニング(FL)は、クライアント間の直接的なデータ露光を回避する共同トレーニングの一般的なパラダイムである。
敵対的かつ正直なクライアントは、単にターゲットのプロンプトを通じて、他の参加者のトレーニングデータを復元することができる。
低ランク適応(LoRA)はFL中の記憶を最大10倍に減少させる。
- 参考スコア(独自算出の注目度): 30.13601588296921
- License:
- Abstract: Federated learning (FL) is a popular paradigm for collaborative training which avoids direct data exposure between clients. However, data privacy issues still remain: FL-trained large language models are capable of memorizing and completing phrases and sentences contained in training data when given with their prefixes. Thus, it is possible for adversarial and honest-but-curious clients to recover training data of other participants simply through targeted prompting. In this work, we demonstrate that a popular and simple fine-tuning strategy, low-rank adaptation (LoRA), reduces memorization during FL up to a factor of 10. We study this effect by performing a medical question-answering fine-tuning task and injecting multiple replicas of out-of-distribution sensitive sequences drawn from an external clinical dataset. We observe a reduction in memorization for a wide variety of Llama 2 and 3 models, and find that LoRA can reduce memorization in centralized learning as well. Furthermore, we show that LoRA can be combined with other privacy-preserving techniques such as gradient clipping and Gaussian noising, secure aggregation, and Goldfish loss to further improve record-level privacy while maintaining performance.
- Abstract(参考訳): フェデレートラーニング(FL)は、クライアント間の直接的なデータ露光を回避する共同トレーニングの一般的なパラダイムである。
FLで訓練された大きな言語モデルは、プレフィックスが与えられたときにトレーニングデータに含まれるフレーズや文を記憶し、完成させることができる。
したがって、相手や正直なクライアントは、単にターゲットのプロンプトを通じて、他の参加者のトレーニングデータを復元することができる。
本研究は,FL中における暗記を10倍に減らし,高速かつ簡易な微調整戦略であるローランク適応(LoRA)を実証する。
本研究は, 医療用質問応答細調整タスクを実行し, 外部臨床データセットから抽出したアウト・オブ・ディストリビューション・センシティブ・シークエンス・シーケンスの複数レプリカを注入することにより, この効果について検討する。
Llama 2 と 3 の多種多様なモデルに対する記憶の減少を観察し,LoRA が集中学習における記憶の低減を図っている。
さらに,LoRAは,勾配クリッピングやガウスノーミング,セキュアアグリゲーション,ゴールドフィッシュロスといった他のプライバシ保護技術と組み合わせることで,パフォーマンスを維持しつつ,記録レベルのプライバシをさらに向上させることができることを示す。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - Unlearn What You Want to Forget: Efficient Unlearning for LLMs [92.51670143929056]
大規模言語モデル(LLM)は、幅広いテキストデータを事前学習し記憶することで大きな進歩を遂げた。
このプロセスはプライバシー問題やデータ保護規則違反に悩まされる可能性がある。
データ削除後のモデル全体を再トレーニングすることなく、LLMを効率的に更新できる効率的なアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-31T03:35:59Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Mitigating Approximate Memorization in Language Models via Dissimilarity
Learned Policy [0.0]
大規模言語モデル(LLM)は大量のデータに基づいて訓練される。
LLMは、トレーニングデータの一部を記憶し、相手が適切にプロンプトすると、それらのデータを冗長に出力することを示した。
論文 参考訳(メタデータ) (2023-05-02T15:53:28Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Privacy-Preserving Federated Learning on Partitioned Attributes [6.661716208346423]
フェデレーション学習は、ローカルデータやモデルを公開することなく、協調的なトレーニングを促進する。
ローカルモデルをチューニングし、プライバシー保護された中間表現をリリースする逆学習ベースの手順を紹介します。
精度低下を緩和するために,前方後方分割アルゴリズムに基づく防御法を提案する。
論文 参考訳(メタデータ) (2021-04-29T14:49:14Z) - Understanding Unintended Memorization in Federated Learning [5.32880378510767]
フェデレートラーニングの異なるコンポーネントが意図しない暗記を減らす上で重要な役割を担っていることを示す。
また,意図しない記憶の少ないモデルにおいて,強いユーザレベルの差分プライバシ保証によるトレーニングが結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-12T22:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。