論文の概要: Safe-FedLLM: Delving into the Safety of Federated Large Language Models
- arxiv url: http://arxiv.org/abs/2601.07177v1
- Date: Mon, 12 Jan 2026 04:01:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.196648
- Title: Safe-FedLLM: Delving into the Safety of Federated Large Language Models
- Title(参考訳): Safe-FedLLM:Federated Large Language Modelsの安全性を追求する
- Authors: Mingxiang Tao, Yu Tian, Wenxuan Tu, Yue Yang, Xue Yang, Xiangyan Tang,
- Abstract要約: Federated Learning (FL)は、大規模言語モデル(LLM)におけるデータのプライバシとサイロの問題に対処する。
フェデレートLDMのためのプローブベースの防御フレームワークであるSafe-FedLLMを提案する。
本手法は,トレーニング速度に大きな影響を与えることなく,悪意のあるデータへの影響を効果的に抑制し,多くの悪意あるクライアントでも有効である。
- 参考スコア(独自算出の注目度): 25.434085049802622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Federated learning (FL) addresses data privacy and silo issues in large language models (LLMs). Most prior work focuses on improving the training efficiency of federated LLMs. However, security in open environments is overlooked, particularly defenses against malicious clients. To investigate the safety of LLMs during FL, we conduct preliminary experiments to analyze potential attack surfaces and defensible characteristics from the perspective of Low-Rank Adaptation (LoRA) weights. We find two key properties of FL: 1) LLMs are vulnerable to attacks from malicious clients in FL, and 2) LoRA weights exhibit distinct behavioral patterns that can be filtered through simple classifiers. Based on these properties, we propose Safe-FedLLM, a probe-based defense framework for federated LLMs, constructing defenses across three dimensions: Step-Level, Client-Level, and Shadow-Level. The core concept of Safe-FedLLM is to perform probe-based discrimination on the LoRA weights locally trained by each client during FL, treating them as high-dimensional behavioral features and using lightweight classification models to determine whether they possess malicious attributes. Extensive experiments demonstrate that Safe-FedLLM effectively enhances the defense capability of federated LLMs without compromising performance on benign data. Notably, our method effectively suppresses malicious data impact without significant impact on training speed, and remains effective even with many malicious clients. Our code is available at: https://github.com/dmqx/Safe-FedLLM.
- Abstract(参考訳): Federated Learning (FL)は、大規模言語モデル(LLM)におけるデータのプライバシとサイロの問題に対処する。
初期の研究は、連合LLMの訓練効率の向上に重点を置いていた。
しかし、オープン環境のセキュリティ、特に悪意のあるクライアントに対する防御は見過ごされている。
FL中におけるLLMの安全性を検討するために,Low-Rank Adaptation (LoRA) 重みの観点から潜在的攻撃面と防御特性を解析するための予備実験を行った。
FLの主な性質は2つある。
1)LLMはFLの悪意のあるクライアントからの攻撃に対して脆弱である。
2) LoRA重みは, 単純な分類器でフィルタできる, 異なる挙動パターンを示す。
これらの特性に基づいて, ステップレベル, クライアントレベル, シャドウレベルという3次元のディフェンスを構築する, フェデレーション LLM のためのプローブベースのディフェンスフレームワーク Safe-FedLLM を提案する。
Safe-FedLLMのコアコンセプトは、FL中に各クライアントがローカルにトレーニングしたLoRA重みをプローブベースで識別し、それらを高次元の振る舞いの特徴として扱い、軽量な分類モデルを用いて悪意のある属性を持つかどうかを判断することである。
強大な実験により, Safe-FedLLMは, 良質なデータの性能を損なうことなく, フェデレートLDMの防御能力を効果的に向上することが示された。
特に,本手法はトレーニング速度に大きな影響を与えることなく,悪意のあるデータへの影響を効果的に抑制し,多くの悪意あるクライアントでも有効である。
私たちのコードは、https://github.com/dmqx/Safe-FedLLM.comで利用可能です。
関連論文リスト
- LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。
LoXは攻撃成功率を11%から54%に下げる。
論文 参考訳(メタデータ) (2025-06-18T16:30:02Z) - SOFT: Selective Data Obfuscation for Protecting LLM Fine-tuning against Membership Inference Attacks [17.77094760401298]
メンバーシップ推論攻撃(MIA)に対する微調整大言語モデルの脆弱性について検討する。
プライバシー保護とプライバシー保護のバランスをとるために,影響のあるデータ選択を調整可能なパラメータで活用することで,プライバシーの漏洩を緩和する新しい防衛手法であるSOFTを提案する。
論文 参考訳(メタデータ) (2025-06-12T07:23:56Z) - FedShield-LLM: A Secure and Scalable Federated Fine-Tuned Large Language Model [0.48342038441006796]
Federated Learning (FL)は、LLM(Large Language Models)のトレーニングと微調整のための分散フレームワークを提供する。
FLはプライバシとセキュリティの懸念に対処し、LLMの相当な計算要求に関連する課題をナビゲートする。
ローランド適応 (LoRA) パラメータに対して, 完全同型暗号化 (FHE) を用いたプルーニングを用いた新しいFedShield-LLMを提案する。
論文 参考訳(メタデータ) (2025-06-06T00:05:05Z) - Reshaping Representation Space to Balance the Safety and Over-rejection in Large Audio Language Models [50.89022445197919]
Large Audio Language Models (LALM) は、Large Language Models (LLM) の機能を拡張した。
近年の研究では、LALMは安全調整が不十分なため、有害なクエリに対して脆弱であることが明らかになっている。
論文 参考訳(メタデータ) (2025-05-26T08:25:25Z) - FedEAT: A Robustness Optimization Framework for Federated LLMs [16.64125481942056]
我々は,クライアントLSMの埋め込み空間における対角的トレーニングを適用した新しいフレームワークであるFedEAT(Federated Embedding space Adversarial Training)を提案する。
実験により,フェデレートLLMのロバスト性は最小限の性能損失で効果的に向上することが示された。
論文 参考訳(メタデータ) (2025-02-17T14:55:46Z) - Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。
安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。
この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文 参考訳(メタデータ) (2024-09-19T17:10:34Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。
我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文 参考訳(メタデータ) (2024-06-15T13:24:22Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。