論文の概要: Low Rank Comes with Low Security: Gradient Assembly Poisoning Attacks against Distributed LoRA-based LLM Systems
- arxiv url: http://arxiv.org/abs/2601.00566v1
- Date: Fri, 02 Jan 2026 04:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.518977
- Title: Low Rank Comes with Low Security: Gradient Assembly Poisoning Attacks against Distributed LoRA-based LLM Systems
- Title(参考訳): 低ランクでセキュリティが低下する - 分散LoRAベースのLLMシステムに対するGradient Assembly Poisoning攻撃
- Authors: Yueyan Dong, Minghui Xu, Qin Hu, Yinhao Xiao, Qi Luo, Yechao Zhang, Yue Zhang, Xiuzhen Cheng,
- Abstract要約: Low-Rank Adaptation (LoRA) は、フェデレートされた設定で大規模言語モデル(LLM)を微調整する一般的なソリューションとなっている。
我々は、この盲点を利用した新しい攻撃である、Gradient Assembly Poisoning (GAP)を提案する。
GAPは、表面流速を保ちながら劣化または偏りのある出力を一貫して誘導し、BLEUを最大14.5%削減し、事実的および文法的誤りを800%以上増加させ、92.6%の長文応答長を維持する。
- 参考スコア(独自算出の注目度): 21.075158459478622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-Rank Adaptation (LoRA) has become a popular solution for fine-tuning large language models (LLMs) in federated settings, dramatically reducing update costs by introducing trainable low-rank matrices. However, when integrated with frameworks like FedIT, LoRA introduces a critical vulnerability: clients submit $A$ and $B$ matrices separately, while only their product $AB$ determines the model update, yet this composite is never directly verified. We propose Gradient Assembly Poisoning (GAP), a novel attack that exploits this blind spot by crafting individually benign $A$ and $B$ matrices whose product yields malicious updates. GAP operates without access to training data or inter-client coordination and remains undetected by standard anomaly detectors. We identify four systemic vulnerabilities in LoRA-based federated systems and validate GAP across LLaMA, ChatGLM, and GPT-2. GAP consistently induces degraded or biased outputs while preserving surface fluency, reducing BLEU by up to 14.5\%, increasing factual and grammatical errors by over 800\%, and maintaining 92.6\% long-form response length. These results reveal a new class of stealthy, persistent threats in distributed LoRA fine-tuning.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、フェデレートされた設定で大規模言語モデル(LLM)を微調整する一般的なソリューションとなり、トレーニング可能な低ランク行列を導入することで、更新コストを劇的に削減している。
しかし、FedITのようなフレームワークと統合すると、LoRAは重大な脆弱性を導入している。クライアントが個別に$A$と$B$の行列を提出するのに対して、製品の$AB$だけがモデルの更新を決定するが、このコンポジットは直接検証されることはない。
我々は、この盲点を悪用する新しい攻撃として、製品が悪意のある更新をもたらす行列を個別に$A$と$B$で作ることを提案する。
GAPは、訓練データやクライアント間調整へのアクセスなしに動作し、標準の異常検知器によって検出されないままである。
また,LLaMA,ChatGLM,GPT-2の4つのシステム脆弱性を同定し,GAPをLLaMA,ChatGLM,GPT-2で検証した。
GAPは、表面流速を保ちながら劣化または偏りのある出力を一貫して誘導し、BLEUを最大14.5\%まで減少させ、事実的および文法的誤りを800\%以上増加させ、92.6\%の長文応答長を維持する。
これらの結果から,分散LoRAファインチューニングにおける新たなステルス,永続的な脅威が明らかになった。
関連論文リスト
- Quantifying Return on Security Controls in LLM Systems [0.0]
本稿では、残留リスクを定量化するための意思決定指向フレームワークを提案する。
敵のプローブの結果を金融リスク推定と戻り制御の指標に変換する。
論文 参考訳(メタデータ) (2025-12-17T04:58:09Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - LoRA-MGPO: Mitigating Double Descent in Low-Rank Adaptation via Momentum-Guided Perturbation Optimization [16.360816770124874]
LoRA-MGPO は Momentum-Guided Perurbation Optimization (MGPO) を組み込んだフレームワークである。
MGPOは勾配状態から運動量ベクトルを誘導する運動力学を安定化させる。
実験の結果, LoRA-MGPO は LoRA や他のPEFT 法よりも優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-02-20T13:14:41Z) - One Head Eight Arms: Block Matrix based Low Rank Adaptation for CLIP-based Few-Shot Learning [11.724194320966959]
本稿では,ビジョン・ランゲージ・ファンデーション・モデルのためのブロック行列に基づく低ランク適応フレームワークBlock-LoRAを提案する。
また,Block-LoRAは,最先端のCLIPベースの複数ショット方式と比較して,競合性能が向上していることを示す。
論文 参考訳(メタデータ) (2025-01-28T05:54:55Z) - Selective Aggregation for Low-Rank Adaptation in Federated Learning [10.683530421910028]
FedSA-LoRA(Federated Share-A Low-Rank Adaptation)では,2つの低ランクトレーニング可能な行列をA$とB$で使用して,重み更新をモデル化する。
FedSA-rsLoRA 法をこれらの LoRA 変種に拡張し,その結果 FedSA-rsLoRA 法と FedSA-VeRA 法が得られた。
論文 参考訳(メタデータ) (2024-10-02T12:14:36Z) - Jailbreaking as a Reward Misspecification Problem [80.52431374743998]
本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の相違の程度を定量化し,その有効性を実証する指標ReGapを紹介する。
ReMissは、報酬ミスの空間で敵のプロンプトを生成する自動レッドチームリングシステムである。
論文 参考訳(メタデータ) (2024-06-20T15:12:27Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
提案するSafe LoRAは,選択した層からのLoRA重みの投影を安全に整合した部分空間に導入することにより,オリジナルのLoRA実装に対する単純なワンライナーパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。