Fugu-MT 論文翻訳(概要): Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses

論文の概要: Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses

arxiv url: http://arxiv.org/abs/2505.15738v1
Date: Wed, 21 May 2025 16:43:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:59.782965
Title: Alignment Under Pressure: The Case for Informed Adversaries When Evaluating LLM Defenses
Title（参考訳）: 圧力下におけるアライメント : LLM防御評価におけるインフォームド・アドバーナリーの事例
Authors: Xiaoxue Yang, Bozhidar Stevanoski, Matthieu Meeus, Yves-Alexandre de Montjoye,
Abstract要約: アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。グレディ・コーディネート・グラディエント(GCG)に対する攻撃成功率(ASR)の報告
参考スコア（独自算出の注目度）: 6.736255552371404
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are rapidly deployed in real-world applications ranging from chatbots to agentic systems. Alignment is one of the main approaches used to defend against attacks such as prompt injection and jailbreaks. Recent defenses report near-zero Attack Success Rates (ASR) even against Greedy Coordinate Gradient (GCG), a white-box attack that generates adversarial suffixes to induce attacker-desired outputs. However, this search space over discrete tokens is extremely large, making the task of finding successful attacks difficult. GCG has, for instance, been shown to converge to local minima, making it sensitive to initialization choices. In this paper, we assess the future-proof robustness of these defenses using a more informed threat model: attackers who have access to some information about the alignment process. Specifically, we propose an informed white-box attack leveraging the intermediate model checkpoints to initialize GCG, with each checkpoint acting as a stepping stone for the next one. We show this approach to be highly effective across state-of-the-art (SOTA) defenses and models. We further show our informed initialization to outperform other initialization methods and show a gradient-informed checkpoint selection strategy to greatly improve attack performance and efficiency. Importantly, we also show our method to successfully find universal adversarial suffixes -- single suffixes effective across diverse inputs. Our results show that, contrary to previous beliefs, effective adversarial suffixes do exist against SOTA alignment-based defenses, that these can be found by existing attack methods when adversaries exploit alignment knowledge, and that even universal suffixes exist. Taken together, our results highlight the brittleness of current alignment-based methods and the need to consider stronger threat models when testing the safety of LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)はチャットボットからエージェントシステムまで、現実世界のアプリケーションに急速にデプロイされる。アライメント(Alignment)は、迅速な注射や脱獄といった攻撃を防御するために使われる主要なアプローチの1つである。近年の防衛は、敵の接尾辞を生成するホワイトボックス攻撃であるGreedy Coordinate Gradient(GCG)に対してさえも、攻撃者が望んだ出力を誘導する近ゼロ攻撃成功率(ASR)を報告している。しかし、この離散トークン上の検索空間は非常に大きいため、攻撃を成功させることは困難である。例えば、GCGは局所ミニマに収束することが示されており、初期化選択に敏感である。本稿では,アライメントプロセスに関する情報にアクセス可能な攻撃者に対して,より情報に富んだ脅威モデルを用いて,これらの防御の将来的な堅牢性を評価する。具体的には、中間モデルチェックポイントを利用してGCGを初期化し、各チェックポイントが次のチェックポイントのステップストーンとして機能する情報ホワイトボックスアタックを提案する。本手法は,SOTA(State-of-the-art Defenses)とモデルに対して,高い有効性を示す。さらに、他の初期化手法よりも優れた情報初期化を示し、攻撃性能と効率を大幅に向上させるために、勾配インフォームされたチェックポイント選択戦略を示す。重要なことに, 多様な入力に対して有効な単一の接尾辞である, 普遍的な接尾辞を見つける方法も提案する。本研究は,従来の信念に反して,SOTAアライメントに基づく防御に対して有効な敵サフィックスが存在すること,敵がアライメント知識を利用する場合の既存の攻撃方法によって,また,万能サフィックスさえ存在することを示唆している。本研究の結果は, 従来のアライメント方式の脆さと, LLMの安全性をテストする際に, より強力な脅威モデルを検討することの必要性を浮き彫りにした。

関連論文リスト

Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文参考訳（メタデータ） (2025-06-27T07:26:33Z)
Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-04T20:25:12Z)
Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。 2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-12-25T04:03:09Z)
Enhancing Adversarial Attacks through Chain of Thought [0.0]
勾配に基づく敵対的攻撃は、特に整列した大言語モデル(LLM)に対して有効である本稿では,CoTプロンプトとgreedy coordinate gradient (GCG)技術を統合することで,敵攻撃の普遍性を高めることを提案する。
論文参考訳（メタデータ） (2024-10-29T06:54:00Z)
AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。包括的な、自動化された、論理的な3つのフレームワークを提案します。このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文参考訳（メタデータ） (2024-06-06T07:24:41Z)
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文参考訳（メタデータ） (2024-02-25T20:36:03Z)
Guidance Through Surrogate: Towards a Generic Diagnostic Attack [101.36906370355435]
我々は、攻撃最適化中に局所最小限を避けるための誘導機構を開発し、G-PGAと呼ばれる新たな攻撃に繋がる。修正された攻撃では、ランダムに再起動したり、多数の攻撃を繰り返したり、最適なステップサイズを検索したりする必要がありません。効果的な攻撃以上に、G-PGAは敵防御における勾配マスキングによる解離性堅牢性を明らかにするための診断ツールとして用いられる。
論文参考訳（メタデータ） (2022-12-30T18:45:23Z)
Understanding the Vulnerability of Skeleton-based Human Activity Recognition via Black-box Attack [53.032801921915436]
HAR(Human Activity Recognition)は、自動運転車など、幅広い用途に採用されている。近年,敵対的攻撃に対する脆弱性から,骨格型HAR法の堅牢性に疑問が呈されている。攻撃者がモデルの入出力しかアクセスできない場合でも、そのような脅威が存在することを示す。 BASARと呼ばれる骨格をベースとしたHARにおいて,最初のブラックボックス攻撃手法を提案する。
論文参考訳（メタデータ） (2022-11-21T09:51:28Z)
Scale-Invariant Adversarial Attack for Evaluating and Enhancing Adversarial Defenses [22.531976474053057]
プロジェクテッド・グラディエント・Descent (PGD) 攻撃は最も成功した敵攻撃の1つであることが示されている。我々は, 対向層の特徴とソフトマックス層の重みの角度を利用して, 対向層の生成を誘導するスケール不変逆襲 (SI-PGD) を提案する。
論文参考訳（メタデータ） (2022-01-29T08:40:53Z)
A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。本稿では,入力空間における自己教師型対向学習機構を提案する。これは、反逆攻撃に対する強力な堅牢性を提供する。
論文参考訳（メタデータ） (2020-06-08T20:42:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。