論文の概要: Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses
- arxiv url: http://arxiv.org/abs/2505.15738v1
- Date: Wed, 21 May 2025 16:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.782965
- Title: Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses
- Title(参考訳): 圧力下におけるアライメント : LLM防御評価におけるインフォームド・アドバーナリーの事例
- Authors: Xiaoxue Yang, Bozhidar Stevanoski, Matthieu Meeus, Yves-Alexandre de Montjoye,
- Abstract要約: アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。
グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
- 参考スコア(独自算出の注目度): 6.736255552371404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are rapidly deployed in real-world applications ranging from chatbots to agentic systems. Alignment is one of the main approaches used to defend against attacks such as prompt injection and jailbreaks. Recent defenses report near-zero Attack Success Rates (ASR) even against Greedy Coordinate Gradient (GCG), a white-box attack that generates adversarial suffixes to induce attacker-desired outputs. However, this search space over discrete tokens is extremely large, making the task of finding successful attacks difficult. GCG has, for instance, been shown to converge to local minima, making it sensitive to initialization choices. In this paper, we assess the future-proof robustness of these defenses using a more informed threat model: attackers who have access to some information about the alignment process. Specifically, we propose an informed white-box attack leveraging the intermediate model checkpoints to initialize GCG, with each checkpoint acting as a stepping stone for the next one. We show this approach to be highly effective across state-of-the-art (SOTA) defenses and models. We further show our informed initialization to outperform other initialization methods and show a gradient-informed checkpoint selection strategy to greatly improve attack performance and efficiency. Importantly, we also show our method to successfully find universal adversarial suffixes -- single suffixes effective across diverse inputs. Our results show that, contrary to previous beliefs, effective adversarial suffixes do exist against SOTA alignment-based defenses, that these can be found by existing attack methods when adversaries exploit alignment knowledge, and that even universal suffixes exist. Taken together, our results highlight the brittleness of current alignment-based methods and the need to consider stronger threat models when testing the safety of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)はチャットボットからエージェントシステムまで、現実世界のアプリケーションに急速にデプロイされる。
アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。
近年の防衛は、敵の接尾辞を生成するホワイトボックス攻撃であるGreedy Coordinate Gradient(GCG)に対してさえも、攻撃者が望んだ出力を誘導する近ゼロ攻撃成功率(ASR)を報告している。
しかし、この離散トークン上の検索空間は非常に大きいため、攻撃を成功させることは困難である。
例えば、GCGは局所ミニマに収束することが示されており、初期化選択に敏感である。
本稿では,アライメントプロセスに関する情報にアクセス可能な攻撃者に対して,より情報に富んだ脅威モデルを用いて,これらの防御の将来的な堅牢性を評価する。
具体的には、中間モデルチェックポイントを利用してGCGを初期化し、各チェックポイントが次のチェックポイントのステップストーンとして機能する情報ホワイトボックスアタックを提案する。
本手法は,SOTA(State-of-the-art Defenses)とモデルに対して,高い有効性を示す。
さらに、他の初期化手法よりも優れた情報初期化を示し、攻撃性能と効率を大幅に向上させるために、勾配インフォームされたチェックポイント選択戦略を示す。
重要なことに, 多様な入力に対して有効な単一の接尾辞である, 普遍的な接尾辞を見つける方法も提案する。
本研究は,従来の信念に反して,SOTAアライメントに基づく防御に対して有効な敵サフィックスが存在すること,敵がアライメント知識を利用する場合の既存の攻撃方法によって,また,万能サフィックスさえ存在することを示唆している。
本研究の結果は, 従来のアライメント方式の脆さと, LLMの安全性をテストする際に, より強力な脅威モデルを検討することの必要性を浮き彫りにした。
関連論文リスト
- Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。
本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。
適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文 参考訳(メタデータ) (2025-03-04T20:25:12Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である
本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文 参考訳(メタデータ) (2024-10-29T06:54:00Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。
修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。
効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文 参考訳(メタデータ) (2022-12-30T18:45:23Z) - Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。
近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。
攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。
BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:51:28Z) - Scale-Invariant Adversarial Attack for Evaluating and Enhancing
Adversarial Defenses [22.531976474053057]
プロジェクテッド・グラディエント・Descent (PGD) 攻撃は最も成功した敵攻撃の1つであることが示されている。
我々は, 対向層の特徴とソフトマックス層の重みの角度を利用して, 対向層の生成を誘導するスケール不変逆襲 (SI-PGD) を提案する。
論文 参考訳(メタデータ) (2022-01-29T08:40:53Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。