論文の概要: FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models
- arxiv url: http://arxiv.org/abs/2511.07505v1
- Date: Wed, 12 Nov 2025 01:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.372986
- Title: FedRW: Efficient Privacy-Preserving Data Reweighting for Enhancing Federated Learning of Language Models
- Title(参考訳): FedRW: 言語モデルのフェデレーション学習を促進するための効果的なプライバシ保護データリヘアリング
- Authors: Pukang Ye, Junwei Luo, Xiaolei Dong, Yunbo Yang,
- Abstract要約: 我々は、信頼できる第三者を仮定することなく、サンプル再重み付けによるソフトデデューズを行うためのフェデレートリウェイト(FedRW)を提案する。
中心となるFedRWは、セキュアなマルチパーティ計算を通じて、セキュアで周波数対応のリウェイトプロトコルを提案する。
プレプロセスで28.78倍の高速化を実現し, パープレキシティを約11.42%向上させることで, 最先端手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 7.5015683571464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data duplication within large-scale corpora often impedes large language models' (LLMs) performance and privacy. In privacy-concerned federated learning scenarios, conventional deduplication methods typically rely on trusted third parties to perform uniform deletion, risking loss of informative samples while introducing privacy vulnerabilities. To address these gaps, we propose Federated ReWeighting (FedRW), the first privacy-preserving framework, to the best of our knowledge, that performs soft deduplication via sample reweighting instead of deletion in federated LLM training, without assuming a trusted third party. At its core, FedRW proposes a secure, frequency-aware reweighting protocol through secure multi-party computation, coupled with a parallel orchestration strategy to ensure efficiency and scalability. During training, FedRW utilizes an adaptive reweighting mechanism with global sample frequencies to adjust individual loss contributions, effectively improving generalization and robustness. Empirical results demonstrate that FedRW outperforms the state-of-the-art method by achieving up to 28.78x speedup in preprocessing and approximately 11.42% improvement in perplexity, while offering enhanced security guarantees. FedRW thus establishes a new paradigm for managing duplication in federated LLM training.
- Abstract(参考訳): 大規模コーパス内のデータ重複は、大きな言語モデル(LLM)のパフォーマンスとプライバシを阻害することが多い。
プライバシを意識したフェデレーション学習のシナリオでは、従来の重複防止手法は信頼できる第三者に頼って一様削除を行い、プライバシの脆弱性を導入しながら情報的サンプルの喪失を危険にさらす。
これらのギャップに対処するため,我々は,フェデレーション・リウェイトリング(FedRW)を提案する。フェデレーション・リウェイトリング(Federated ReWeighting, FedRW)は,第1のプライバシ保護フレームワークである。
コアとなるFedRWは、セキュアなマルチパーティ計算と並列オーケストレーション戦略を組み合わせることで、効率性とスケーラビリティを確保することで、セキュアで周波数対応のリウェイトプロトコルを提案する。
トレーニング中、FedRWは、グローバルサンプル周波数による適応的再重み付け機構を使用して個人損失の寄与を調整し、一般化と堅牢性を効果的に改善する。
実証的な結果は、FedRWが前処理で最大28.78倍のスピードアップを達成し、パープレキシティが約11.42%向上し、セキュリティ保証が強化されたことにより、最先端の手法よりも優れていることを示している。
したがって、FedRWは、連合LLMトレーニングにおける重複を管理するための新しいパラダイムを確立する。
関連論文リスト
- OFMU: Optimization-Driven Framework for Machine Unlearning [5.100622189286672]
大規模言語モデルは、ユーザ要求、著作権のある資料、時代遅れの情報など、特定の知識を解放する能力を必要としている。
我々は,保留期間を保ちながら忘れを明示的に優先順位付けするペナルティベースの二段階最適化フレームワークOFMUを提案する。
OFMUは既存のアンラーニング手法を有効性と有効性の両方で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-26T15:31:32Z) - Towards Privacy-Preserving and Heterogeneity-aware Split Federated Learning via Probabilistic Masking [16.758567358839294]
スプリット・フェデレート・ラーニング(SFL)は、従来のフェデレート・ラーニング(FL)に代わる効果的な代替手段として登場した。
本稿では,確率的マスクトレーニングを取り入れたスケーラブルかつプライバシ保護型SFLフレームワークPM-SFLを提案する。
画像および無線センシングタスクの実験は、PM-SFLが一貫して精度、通信効率、プライバシー攻撃を改善することを示した。
論文 参考訳(メタデータ) (2025-09-18T04:28:08Z) - FedEM: A Privacy-Preserving Framework for Concurrent Utility Preservation in Federated Learning [17.853502904387376]
Federated Learning (FL)は、分散クライアント間で、ローカルデータを共有せずにモデルの協調的なトレーニングを可能にし、分散システムにおけるプライバシの問題に対処する。
適応雑音注入による制御摂動を組み込んだ新しいアルゴリズムであるフェデレートエラー最小化(FedEM)を提案する。
ベンチマークデータセットの実験結果から、FedEMはプライバシのリスクを著しく低減し、モデルの正確性を保ち、プライバシ保護とユーティリティ保護の堅牢なバランスを達成している。
論文 参考訳(メタデータ) (2025-03-08T02:48:00Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Efficient and Robust Regularized Federated Recommendation [52.24782464815489]
推薦システム(RSRS)は、ユーザの好みとプライバシの両方に対処する。
通信効率を向上させるために,非一様勾配勾配勾配を取り入れた新しい手法を提案する。
RFRecFの強靭性は、多様なベースラインに比べて優れている。
論文 参考訳(メタデータ) (2024-11-03T12:10:20Z) - Unveiling the Vulnerability of Private Fine-Tuning in Split-Based Frameworks for Large Language Models: A Bidirectionally Enhanced Attack [20.727726850786386]
BiSRは、スプリットラーニング(SL)の前方および後方伝播プロセスの両方をターゲットにした最初のデータ再構成攻撃である。
SLの前方および後方伝播過程を標的とした最初のデータ再構成攻撃(DRA)であるBiSRを提案する。
論文 参考訳(メタデータ) (2024-09-02T06:01:20Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - FedML-HE: An Efficient Homomorphic-Encryption-Based Privacy-Preserving Federated Learning System [24.39699808493429]
Federated Learningは、ローカルデータではなく、ローカルモデルのアップデートを集約することによって、分散デバイス上の機械学習モデルをトレーニングする。
サーバ上の集約されたローカルモデルは、逆攻撃によって機密性の高い個人情報を明らかにする可能性があるため、プライバシー上の懸念が生じる。
我々は,HedML-HEをベースとした安全なモデルアグリゲーションを実現するための,最初の実践的フェデレーション学習システムを提案する。
論文 参考訳(メタデータ) (2023-03-20T02:44:35Z) - Combating Exacerbated Heterogeneity for Robust Models in Federated
Learning [91.88122934924435]
対人訓練と連合学習の組み合わせは、望ましくない頑丈さの劣化につながる可能性がある。
我々は、Slack Federated Adversarial Training (SFAT)と呼ばれる新しいフレームワークを提案する。
各種ベンチマークおよび実世界のデータセットに対するSFATの合理性と有効性を検証する。
論文 参考訳(メタデータ) (2023-03-01T06:16:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。