論文の概要: LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs
- arxiv url: http://arxiv.org/abs/2505.10838v1
- Date: Fri, 16 May 2025 04:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:13.983605
- Title: LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs
- Title(参考訳): LARGO: 脱獄LLMのグラディエント最適化による潜在対向反射
- Authors: Ran Li, Hao Wang, Chengzhi Mao,
- Abstract要約: LARGOは,流水性脱獄プロンプトを発生させる新規な潜伏自己反射攻撃である。
AdvBenchやJailbreakBenchのようなベンチマークでは、AutoDANを含む主要なジェイルブレイクテクニックを44ポイント上回っている。
- 参考スコア(独自算出の注目度): 13.432303050813864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient red-teaming method to uncover vulnerabilities in Large Language Models (LLMs) is crucial. While recent attacks often use LLMs as optimizers, the discrete language space make gradient-based methods struggle. We introduce LARGO (Latent Adversarial Reflection through Gradient Optimization), a novel latent self-reflection attack that reasserts the power of gradient-based optimization for generating fluent jailbreaking prompts. By operating within the LLM's continuous latent space, LARGO first optimizes an adversarial latent vector and then recursively call the same LLM to decode the latent into natural language. This methodology yields a fast, effective, and transferable attack that produces fluent and stealthy prompts. On standard benchmarks like AdvBench and JailbreakBench, LARGO surpasses leading jailbreaking techniques, including AutoDAN, by 44 points in attack success rate. Our findings demonstrate a potent alternative to agentic LLM prompting, highlighting the efficacy of interpreting and attacking LLM internals through gradient optimization.
- Abstract(参考訳): LLM(Large Language Models)の脆弱性を明らかにするための効率的なリピート手法が不可欠である。
近年の攻撃では、LLMをオプティマイザとして使用することが多いが、言語空間の離散化は勾配ベースの手法を苦しめている。
LARGO(Latent Adversarial Reflection through Gradient Optimization)は,ゆるやかなジェイルブレイクプロンプトを生成するための勾配に基づく最適化のパワーを再保証する,新しい遅延自己回帰攻撃である。
LLMの連続潜伏空間内で操作することで、LARGOはまず逆潜伏ベクトルを最適化し、次に同じLSMを再帰的に呼び出して潜伏ベクトルを自然言語に復号する。
この手法は、高速で効果的で伝達可能な攻撃をもたらし、流動的でステルス的なプロンプトを生み出す。
AdvBenchやJailbreakBenchのような標準ベンチマークでは、AutoDANを含む主要なジェイルブレイクテクニックを44ポイント上回っている。
本研究は, LLM内装を最適化することにより, LLM内装を解釈し, 攻撃する効果を浮き彫りにした。
関連論文リスト
- LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,GASP(Generative Adversarial Suffix Prompter)を提案する。
実験の結果、GASPは自然な脱獄プロンプトを生成し、攻撃成功率を大幅に改善し、トレーニング時間を短縮し、推論速度を加速できることがわかった。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - An Optimizable Suffix Is Worth A Thousand Templates: Efficient Black-box Jailbreaking without Affirmative Phrases via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。
我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。