論文の概要: Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation
- arxiv url: http://arxiv.org/abs/2509.20680v1
- Date: Thu, 25 Sep 2025 02:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.662566
- Title: Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation
- Title(参考訳): LLMトレーニングにおける個人データ保護のためのフェデレーション学習 : 脆弱性・攻撃・防衛評価
- Authors: Wenkai Guo, Xuefeng Liu, Haolin Wang, Jianwei Niu, Shaojie Tang, Jing Yuan,
- Abstract要約: フェデレートラーニング(FL)により、クライアントは、コラボレーティブトレーニングのためのモデルパラメータのみを共有しながら、ローカルデータを保持できる。
攻撃者は、簡単な生成方法を用いても、グローバルモデルからトレーニングデータを抽出できることを示す。
FLに合わせた攻撃戦略を導入し、トレーニング中にグローバルモデルのアップデートを追跡し、プライバシーの漏洩を強化する。
- 参考スコア(独自算出の注目度): 20.37072541084284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) with local data is a widely adopted approach for organizations seeking to adapt LLMs to their specific domains. Given the shared characteristics in data across different organizations, the idea of collaboratively fine-tuning an LLM using data from multiple sources presents an appealing opportunity. However, organizations are often reluctant to share local data, making centralized fine-tuning impractical. Federated learning (FL), a privacy-preserving framework, enables clients to retain local data while sharing only model parameters for collaborative training, offering a potential solution. While fine-tuning LLMs on centralized datasets risks data leakage through next-token prediction, the iterative aggregation process in FL results in a global model that encapsulates generalized knowledge, which some believe protects client privacy. In this paper, however, we present contradictory findings through extensive experiments. We show that attackers can still extract training data from the global model, even using straightforward generation methods, with leakage increasing as the model size grows. Moreover, we introduce an enhanced attack strategy tailored to FL, which tracks global model updates during training to intensify privacy leakage. To mitigate these risks, we evaluate privacy-preserving techniques in FL, including differential privacy, regularization-constrained updates and adopting LLMs with safety alignment. Our results provide valuable insights and practical guidelines for reducing privacy risks when training LLMs with FL.
- Abstract(参考訳): ローカルデータを用いた微調整大型言語モデル(LLM)は、特定のドメインにLLMを適用しようとする組織にとって広く採用されているアプローチである。
異なる組織にまたがるデータの共有特性を考えると、複数のソースからのデータを使ってLLMを協調的に微調整するというアイデアは魅力的な機会である。
しかし、組織はしばしばローカルデータの共有に消極的であり、集中的な微調整は現実的ではない。
プライバシ保護フレームワークであるフェデレーションラーニング(FL)では、クライアントがローカルデータを保持でき、コラボレーティブトレーニングのためのモデルパラメータのみを共有して、潜在的なソリューションを提供する。
集中型データセット上の微調整 LLM は、次のトーケン予測によるデータの漏洩を危険にさらすが、FL の反復集約プロセスは、一般化された知識をカプセル化したグローバルモデルをもたらす。
しかし,本論文では,広範な実験を通して矛盾する知見を提示する。
モデルサイズが大きくなるにつれて,攻撃者は簡単な生成方法を用いても,グローバルモデルからトレーニングデータを抽出できることを示す。
さらに、FLに合わせた強化攻撃戦略を導入し、トレーニング中のグローバルモデル更新を追跡し、プライバシー漏洩を強化する。
これらのリスクを軽減するために、差分プライバシー、正規化制約付き更新、安全アライメント付きLLMの採用など、FLのプライバシー保護技術を評価する。
FLを用いてLDMをトレーニングする際のプライバシーリスクを低減するための貴重な洞察と実践的ガイドラインを提供する。
関連論文リスト
- Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - FLea: Addressing Data Scarcity and Label Skew in Federated Learning via Privacy-preserving Feature Augmentation [15.298650496155508]
フェデレートラーニング(FL)は、ローカルデータを中央サーバに転送することなく、多数のエッジデバイスに分散したデータを活用することによって、モデル開発を可能にする。
既存のFLメソッドは、デバイス間の不足やラベルスキュードデータを扱う際に問題に直面し、結果としてローカルモデルが過度に適合し、ドリフトする。
我々は、以下のキーコンポーネントを組み込んだ textitFLea という先駆的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-04T20:24:09Z) - Tunable Soft Prompts are Messengers in Federated Learning [55.924749085481544]
フェデレートラーニング(FL)は、複数の参加者が分散データソースを使用して機械学習モデルを協調的にトレーニングすることを可能にする。
FLにおけるモデルプライバシ保護の欠如は無視できない課題となっている。
そこで本研究では,ソフトプロンプトによって参加者間の情報交換を実現する新しいFLトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T11:01:10Z) - Federated Learning with Reduced Information Leakage and Computation [17.069452700698047]
フェデレートラーニング(Federated Learning, FL)は、分散学習パラダイムであり、複数の分散クライアントが、ローカルデータを共有せずに共通のモデルを共同で学習することを可能にする。
本稿では,モデル更新毎に一階近似を適用する手法であるUpcycled-FLを紹介する。
この戦略の下では、FL更新の半分は情報漏洩を伴わず、計算と送信のコストを大幅に削減する。
論文 参考訳(メタデータ) (2023-10-10T06:22:06Z) - Mitigating Cross-client GANs-based Attack in Federated Learning [78.06700142712353]
マルチ分散マルチメディアクライアントは、グローバル共有モデルの共同学習のために、フェデレートラーニング(FL)を利用することができる。
FLは、GAN(C-GANs)をベースとしたクロスクライアント・ジェネレーティブ・敵ネットワーク(GANs)攻撃に苦しむ。
C-GAN攻撃に抵抗する現在のFLスキームを改善するためのFed-EDKD手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T08:15:55Z) - PS-FedGAN: An Efficient Federated Learning Framework Based on Partially
Shared Generative Adversarial Networks For Data Privacy [56.347786940414935]
分散計算のための効果的な学習パラダイムとして、フェデレートラーニング(FL)が登場した。
本研究は,部分的なGANモデル共有のみを必要とする新しいFLフレームワークを提案する。
PS-FedGANと名付けられたこの新しいフレームワークは、異種データ分散に対処するためのGANリリースおよびトレーニングメカニズムを強化する。
論文 参考訳(メタデータ) (2023-05-19T05:39:40Z) - Personalized Privacy-Preserving Framework for Cross-Silo Federated
Learning [0.0]
Federated Learning(FL)は有望な分散ディープラーニング(DL)フレームワークであり、プライベートデータを共有することなく、クライアント間で共同でトレーニングされたDLベースのアプローチを可能にする。
本稿では,PPPFL(Personalized Privacy-Preserving Federated Learning)という新しいフレームワークを提案する。
提案するフレームワークは,MNIST,Fashion-MNIST,CIFAR-10,CIFAR-100など,さまざまなデータセット上で複数のFLベースラインより優れている。
論文 参考訳(メタデータ) (2023-02-22T07:24:08Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Do Gradient Inversion Attacks Make Federated Learning Unsafe? [70.0231254112197]
フェデレートラーニング(FL)は、生データを共有することなく、AIモデルの協調トレーニングを可能にする。
モデル勾配からのディープニューラルネットワークの反転に関する最近の研究は、トレーニングデータの漏洩を防止するためのFLの安全性に関する懸念を提起した。
本研究では,本論文で提示されたこれらの攻撃が実際のFLユースケースでは実行不可能であることを示し,新たなベースライン攻撃を提供する。
論文 参考訳(メタデータ) (2022-02-14T18:33:12Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。