論文の概要: Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent
- arxiv url: http://arxiv.org/abs/2508.14853v1
- Date: Wed, 20 Aug 2025 17:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.534667
- Title: Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent
- Title(参考訳): 指数化グラディエント Descent を用いた大規模言語モデルに対する普遍的および伝達可能な逆攻撃
- Authors: Sajib Biswas, Mao Nishino, Samuel Jacob Chacko, Xiuwen Liu,
- Abstract要約: 大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
- 参考スコア(独自算出の注目度): 1.1187085721899017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) are increasingly deployed in critical applications, ensuring their robustness and safety alignment remains a major challenge. Despite the overall success of alignment techniques such as reinforcement learning from human feedback (RLHF) on typical prompts, LLMs remain vulnerable to jailbreak attacks enabled by crafted adversarial triggers appended to user prompts. Most existing jailbreak methods either rely on inefficient searches over discrete token spaces or direct optimization of continuous embeddings. While continuous embeddings can be given directly to selected open-source models as input, doing so is not feasible for proprietary models. On the other hand, projecting these embeddings back into valid discrete tokens introduces additional complexity and often reduces attack effectiveness. We propose an intrinsic optimization method which directly optimizes relaxed one-hot encodings of the adversarial suffix tokens using exponentiated gradient descent coupled with Bregman projection, ensuring that the optimized one-hot encoding of each token always remains within the probability simplex. We provide theoretical proof of convergence for our proposed method and implement an efficient algorithm that effectively jailbreaks several widely used LLMs. Our method achieves higher success rates and faster convergence compared to three state-of-the-art baselines, evaluated on five open-source LLMs and four adversarial behavior datasets curated for evaluating jailbreak methods. In addition to individual prompt attacks, we also generate universal adversarial suffixes effective across multiple prompts and demonstrate transferability of optimized suffixes to different LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)が重要なアプリケーションにますますデプロイされているため、その堅牢性と安全性の整合性は依然として大きな課題である。
人間のフィードバックからの強化学習(RLHF)のようなアライメント技術が一般的なプロンプトで全般的に成功したにもかかわらず、LDMはユーザプロンプトに付加された対人トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
既存のjailbreakメソッドの多くは、離散トークン空間上の非効率な検索か、継続的埋め込みの直接最適化に依存している。
連続的な埋め込みは、選択されたオープンソースモデルに直接入力することができるが、プロプライエタリなモデルでは実現不可能である。
一方、これらの埋め込みを有効な離散トークンに投影することは、さらなる複雑さをもたらし、しばしば攻撃効率を低下させる。
本稿では,Bregmanプロジェクションと組み合わされた指数勾配降下を用いて,逆接接尾辞トークンの緩和された一点符号化を直接最適化し,各トークンの最適化一点符号化が常に確率単純度内にあることを保証する本質的な最適化手法を提案する。
本稿では,提案手法の収束の理論的証明と,広く使用されているLLMを効果的にジェイルブレイクする効率的なアルゴリズムの実装について述べる。
本手法は,5つのオープンソースLCMと4つの逆挙動データセットを用いてジェイルブレイク法の評価を行った結果,最先端の3つのベースラインと比較して高い成功率と高速収束を実現した。
個別のプロンプトアタックに加えて、複数のプロンプトで有効な普遍的な逆接接尾辞を生成し、異なるLLMへの最適化接尾辞の転送可能性を示す。
関連論文リスト
- Adversarial Attack on Large Language Models using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデルは、ジェイルブレイク攻撃に弱い。
指数勾配勾配を用いた固有最適化手法を開発した。
本手法は,他の3つの最先端ジェイルブレイク技術と比較して,高い効率で高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-05-14T21:50:46Z) - Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary [2.4329261266984346]
LLM(Large Language Models)は、有用で安全なコンテンツを生成するように設計されている。
一般的にジェイルブレイクと呼ばれる 敵の攻撃は 安全プロトコルをバイパスできる
LLMのプリフィル機能を利用した新しいジェイルブレイク攻撃手法を提案する。
論文 参考訳(メタデータ) (2025-04-28T07:38:43Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,Jailbreakプロンプトを効率的に生成できる新しいフレームワークであるGenerative Adversarial Suffix Prompter(GASP)を紹介する。
我々は,GASPが自然な敵のプロンプトを生成でき,ベースラインよりもジェイルブレイクの成功を著しく改善し,トレーニング時間を短縮し,推論速度を加速できることを示す。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization [46.98249466236357]
大規模言語モデル(LLM)は、有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすい。
本稿では,新しいトークンレベル攻撃手法であるAdaptive-to-Sparse Constrained Optimization (ADC)を提案する。
論文 参考訳(メタデータ) (2024-05-15T06:11:24Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。