論文の概要: Adversarial Attack on Large Language Models using Exponentiated Gradient Descent
- arxiv url: http://arxiv.org/abs/2505.09820v1
- Date: Wed, 14 May 2025 21:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.120346
- Title: Adversarial Attack on Large Language Models using Exponentiated Gradient Descent
- Title(参考訳): Exponentiated Gradient Descent を用いた大規模言語モデルの逆攻撃
- Authors: Sajib Biswas, Mao Nishino, Samuel Jacob Chacko, Xiuwen Liu,
- Abstract要約: 大規模言語モデルは、ジェイルブレイク攻撃に弱い。
指数勾配勾配を用いた固有最適化手法を開発した。
本手法は,他の3つの最先端ジェイルブレイク技術と比較して,高い効率で高い成功率を達成することを示す。
- 参考スコア(独自算出の注目度): 1.1187085721899017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are widely used, understanding them systematically is key to improving their safety and realizing their full potential. Although many models are aligned using techniques such as reinforcement learning from human feedback (RLHF), they are still vulnerable to jailbreaking attacks. Some of the existing adversarial attack methods search for discrete tokens that may jailbreak a target model while others try to optimize the continuous space represented by the tokens of the model's vocabulary. While techniques based on the discrete space may prove to be inefficient, optimization of continuous token embeddings requires projections to produce discrete tokens, which might render them ineffective. To fully utilize the constraints and the structures of the space, we develop an intrinsic optimization technique using exponentiated gradient descent with the Bregman projection method to ensure that the optimized one-hot encoding always stays within the probability simplex. We prove the convergence of the technique and implement an efficient algorithm that is effective in jailbreaking several widely used LLMs. We demonstrate the efficacy of the proposed technique using five open-source LLMs on four openly available datasets. The results show that the technique achieves a higher success rate with great efficiency compared to three other state-of-the-art jailbreaking techniques. The source code for our implementation is available at: https://github.com/sbamit/Exponentiated-Gradient-Descent-LLM-Attack
- Abstract(参考訳): LLM(Large Language Models)が広く使われているため、それらを体系的に理解することが、安全性を改善し、最大限の可能性を実現する鍵となります。
多くのモデルは、人間からのフィードバック(RLHF)からの強化学習のような技術を用いて調整されているが、それでも脱獄攻撃には弱い。
既存の敵攻撃手法のいくつかは、ターゲットモデルをジェイルブレイクする可能性のある離散トークンを探索し、他方はモデルの語彙のトークンで表される連続空間を最適化しようとする。
離散空間に基づく手法は非効率であることが証明されるが、連続トークン埋め込みの最適化は離散トークンを生成するためにプロジェクションを必要とするため、それらが非効率になる可能性がある。
空間の制約と構造を十分に活用するために,Bregmanプロジェクション法による指数勾配降下を用いた固有最適化手法を開発し,最適化されたワンホット符号化が常に確率的単純度内に留まることを保証した。
我々は,この手法の収束性を証明し,広く使用されているLLMのジェイルブレイクに有効な効率的なアルゴリズムを実装した。
提案手法の有効性を,4つの公開データセット上で5つのオープンソースLCMを用いて実証する。
以上の結果から,他の3種類の脱獄技術と比較して,高い効率で高い成功率を達成できることが示唆された。
実装のソースコードは、https://github.com/sbamit/Exponentiated-Gradient-Descent-LLM-Attack.comで公開されています。
関連論文リスト
- Using Mechanistic Interpretability to Craft Adversarial Attacks against Large Language Models [1.6112718683989882]
LLMに対する対角的摂動を生み出すための新しいホワイトボックス手法を提案する。
まず、受け入れ部分空間(モデルの拒絶機構を起動しない特徴ベクトルの集合)を識別する。
次に、勾配に基づく最適化を用いて、拒否サブスペースから受け入れサブスペースへの埋め込みを除去し、ジェイルブレイクを効果的に達成する。
論文 参考訳(メタデータ) (2025-03-08T16:29:45Z) - Adversarial Attacks on Large Language Models Using Regularized Relaxation [1.042748558542389]
大規模言語モデル(LLM)は、多くの実用的な用途に使われている。
敵攻撃法は、これらの脆弱性を研究し、理解するために広く使われている。
本稿では,正規化勾配を連続最適化法で活用することにより,これらの制限を克服する新たな攻撃手法を提案する。
論文 参考訳(メタデータ) (2024-10-24T21:01:45Z) - Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization [46.98249466236357]
大規模言語モデル(LLM)は、有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすい。
本稿では,新しいトークンレベル攻撃手法であるAdaptive-to-Sparse Constrained Optimization (ADC)を提案する。
論文 参考訳(メタデータ) (2024-05-15T06:11:24Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - BERT-ATTACK: Adversarial Attack Against BERT Using BERT [77.82947768158132]
離散データ(テキストなど)に対するアドリアック攻撃は、連続データ(画像など)よりも難しい。
対戦型サンプルを生成するための高品質で効果的な方法である textbfBERT-Attack を提案する。
本手法は、成功率と摂動率の両方において、最先端の攻撃戦略より優れている。
論文 参考訳(メタデータ) (2020-04-21T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。