論文の概要: Does Low Rank Adaptation Lead to Lower Robustness against Training-Time Attacks?
- arxiv url: http://arxiv.org/abs/2505.12871v1
- Date: Mon, 19 May 2025 08:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.500463
- Title: Does Low Rank Adaptation Lead to Lower Robustness against Training-Time Attacks?
- Title(参考訳): 低ランク適応は訓練時間攻撃に対するロバストさを低下させるか?
- Authors: Zi Liang, Haibo Hu, Qingqing Ye, Yaxin Xiao, Ronghua Li,
- Abstract要約: 低ランク適応(LoRA)は、大規模言語モデルを微調整する際、顕著な手法として登場した。
本稿では,LoRAの微調整における低ランク構造の影響を理論的に検討する。
- 参考スコア(独自算出の注目度): 13.195554424548948
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low rank adaptation (LoRA) has emerged as a prominent technique for fine-tuning large language models (LLMs) thanks to its superb efficiency gains over previous methods. While extensive studies have examined the performance and structural properties of LoRA, its behavior upon training-time attacks remain underexplored, posing significant security risks. In this paper, we theoretically investigate the security implications of LoRA's low-rank structure during fine-tuning, in the context of its robustness against data poisoning and backdoor attacks. We propose an analytical framework that models LoRA's training dynamics, employs the neural tangent kernel to simplify the analysis of the training process, and applies information theory to establish connections between LoRA's low rank structure and its vulnerability against training-time attacks. Our analysis indicates that LoRA exhibits better robustness to backdoor attacks than full fine-tuning, while becomes more vulnerable to untargeted data poisoning due to its over-simplified information geometry. Extensive experimental evaluations have corroborated our theoretical findings.
- Abstract(参考訳): 低階適応 (LoRA) は, 従来の手法よりも優れた効率向上により, 大規模言語モデル (LLM) を微調整する顕著な手法として登場した。
広範な研究がLoRAの性能と構造について調べてきたが、訓練時の攻撃に対するその挙動は未解明のままであり、重大なセキュリティリスクを生じさせている。
本稿では、データ中毒やバックドア攻撃に対するロラの堅牢性の観点から、微調整中の低ランク構造がもたらすセキュリティへの影響を理論的に検討する。
本稿では,LoRAのトレーニングダイナミクスをモデル化し,ニューラルネットワークカーネルを用いてトレーニングプロセスの解析を簡略化し,LoRAの低ランク構造とトレーニング時の攻撃に対する脆弱性の関連性を確立するための情報理論を提案する。
解析の結果,LORAは全微調整よりもバックドア攻撃に対する堅牢性が高いが,過度に単純化された情報ジオメトリにより,標的外データ中毒に対して脆弱であることが明らかとなった。
総合的な実験的評価は、我々の理論的な知見を裏付けている。
関連論文リスト
- Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - LoRA Dropout as a Sparsity Regularizer for Overfitting Control [18.992276878667997]
そこで本研究では,LoRA方式のドロップアウト機構を提案する。
適切な空間性は、経験的リスクと一般化リスクのギャップを狭めるのに役立ちます。
論文 参考訳(メタデータ) (2024-04-15T09:32:12Z) - Data Reconstruction Attacks and Defenses: A Systematic Evaluation [27.34562026045369]
再構築攻撃と防御は、機械学習におけるデータ漏洩問題を理解する上で不可欠である。
本稿では,この問題を逆問題とみなし,理論的かつ体系的にデータ再構成攻撃を評価することを提案する。
本報告では, 従来の防衛手法の強みに対する理解を深める上で有効な, 強力な再建攻撃を提案する。
論文 参考訳(メタデータ) (2024-02-13T05:06:34Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Layer-wise Regularized Adversarial Training using Layers Sustainability
Analysis (LSA) framework [8.701566919381223]
敵の攻撃に対する適切な解決策は、堅牢性と一般化の間のトレードオフに達する敵の訓練である。
本稿では,ニューラルネットワークの層脆弱性を敵攻撃のシナリオで解析するための新しいフレームワーク (Layer Sustainability Analysis) を提案する。
提案したアイデアは、最先端の多層パーセプトロンと畳み込みニューラルネットワークアーキテクチャに対して、理論上、実験的によく機能する。
論文 参考訳(メタデータ) (2022-02-05T20:05:53Z) - Where Did You Learn That From? Surprising Effectiveness of Membership
Inference Attacks Against Temporally Correlated Data in Deep Reinforcement
Learning [114.9857000195174]
深い強化学習を産業的に広く採用する上での大きな課題は、プライバシー侵害の潜在的な脆弱性である。
本稿では, 深層強化学習アルゴリズムの脆弱性を検証し, メンバーシップ推論攻撃に適応する対戦型攻撃フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-08T23:44:57Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - On the Generalization Properties of Adversarial Training [21.79888306754263]
本稿では,汎用的対数学習アルゴリズムの一般化性能について検討する。
滑らかさとL1のペナル化がモデルの対向的堅牢性をどのように改善するかを示すために、一連の数値的研究が行われた。
論文 参考訳(メタデータ) (2020-08-15T02:32:09Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。