論文の概要: Low Rank Adaptation for Adversarial Perturbation
- arxiv url: http://arxiv.org/abs/2604.27487v1
- Date: Thu, 30 Apr 2026 06:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.955925
- Title: Low Rank Adaptation for Adversarial Perturbation
- Title(参考訳): 逆行性摂動に対する低位適応法
- Authors: Han Liu, Shanghao Shi, Yevgeniy Vorobeychik, Chongjie Zhang, Ning Zhang,
- Abstract要約: Low-Rank Adaptation (LoRA) はLarge Language Models (LLM) のトレーニング効率を大幅に改善した。
逆方向の例の生成はモデルトレーニングに類似した最適化プロセスであるため、これは自然に疑問を提起する: 逆方向の摂動は同様の低ランク構造を示すか?
本稿では, 種々の攻撃手法, モデルアーキテクチャ, およびデータセットに関する理論的解析および広範な実証的研究を行い, 対向摂動が実際に低ランク構造を持つことを示す。
- 参考スコア(独自算出の注目度): 50.24377354110586
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-Rank Adaptation (LoRA), which leverages the insight that model updates typically reside in a low-dimensional space, has significantly improved the training efficiency of Large Language Models (LLMs) by updating neural network layers using low-rank matrices. Since the generation of adversarial examples is an optimization process analogous to model training, this naturally raises the question: Do adversarial perturbations exhibit a similar low-rank structure? In this paper, we provide both theoretical analysis and extensive empirical investigation across various attack methods, model architectures, and datasets to show that adversarial perturbations indeed possess an inherently low-rank structure. This insight opens up new opportunities for improving both adversarial attacks and defenses. We mainly focus on leveraging this low-rank property to improve the efficiency and effectiveness of black-box adversarial attacks, which often suffer from excessive query requirements. Our method follows a two-step approach. First, we use a reference model and auxiliary data to guide the projection of gradients into a low-dimensional subspace. Next, we confine the perturbation search in black-box attacks to this low-rank subspace, significantly improving the efficiency and effectiveness of the adversarial attacks. We evaluated our approach across a range of attack methods, benchmark models, datasets, and threat models. The results demonstrate substantial and consistent improvements in the performance of our low-rank adversarial attacks compared to conventional methods.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)は、モデル更新が一般的に低次元空間に存在するという知見を活用することで、低ランク行列を使用してニューラルネットワーク層を更新することにより、Large Language Models (LLM)のトレーニング効率を大幅に改善した。
逆方向の例の生成はモデルトレーニングに類似した最適化プロセスであるため、これは自然に疑問を提起する: 逆方向の摂動は同様の低ランク構造を示すか?
本稿では, 種々の攻撃手法, モデルアーキテクチャ, およびデータセットに関する理論的解析および広範な実証的研究を行い, 対向摂動が本質的に低ランク構造を持つことを示す。
この洞察は、敵の攻撃と防御の両方を改善するための新たな機会を開く。
我々は主に、この低ランクなプロパティを活用して、過剰なクエリ要求に悩まされるブラックボックスの敵攻撃の効率と有効性を改善することに重点を置いている。
我々の手法は2段階のアプローチに従う。
まず、基準モデルと補助データを用いて勾配の投影を低次元部分空間に導く。
次に,ブラックボックス攻撃における摂動探索をこの低ランク部分空間に限定し,敵攻撃の効率と有効性を大幅に向上させる。
我々は、攻撃方法、ベンチマークモデル、データセット、脅威モデルにまたがるアプローチを評価した。
その結果,従来の手法と比較して,低ランク対人攻撃の性能は大幅に改善した。
関連論文リスト
- Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Learning to Learn Transferable Attack [77.67399621530052]
転送逆行攻撃は非自明なブラックボックス逆行攻撃であり、サロゲートモデル上で敵の摂動を発生させ、そのような摂動を被害者モデルに適用することを目的としている。
本研究では,データとモデル拡張の両方から学習することで,敵の摂動をより一般化する学習可能な攻撃学習法(LLTA)を提案する。
提案手法の有効性を実証し, 現状の手法と比較して, 12.85%のトランスファー攻撃の成功率で検証した。
論文 参考訳(メタデータ) (2021-12-10T07:24:21Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - AdvHaze: Adversarial Haze Attack [19.744435173861785]
現実世界の風景に共通する現象であるヘイズに基づく新たな敵対攻撃法を紹介します。
本手法は, 大気散乱モデルに基づく画像に, 高い現実性で, 潜在的に逆転するハゼを合成することができる。
提案手法は,高い成功率を達成し,ベースラインと異なる分類モデル間での転送性が向上することを示す。
論文 参考訳(メタデータ) (2021-04-28T09:52:25Z) - Query-Free Adversarial Transfer via Undertrained Surrogates [14.112444998191698]
本研究では,ブラックボックス環境における敵攻撃の有効性を改善するための新しい手法を提案する。
本稿では, この手法がアーキテクチャ全体にわたって良好に伝達し, 最先端の手法よりも広いマージンで性能を向上することを示す。
論文 参考訳(メタデータ) (2020-07-01T23:12:22Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。