論文の概要: Dynamic Target Attack
- arxiv url: http://arxiv.org/abs/2510.02422v1
- Date: Thu, 02 Oct 2025 16:40:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.10346
- Title: Dynamic Target Attack
- Title(参考訳): 動的標的攻撃
- Authors: Kedong Xiu, Churui Zeng, Tianhang Zheng, Xinzhe Huang, Xiaojun Jia, Di Wang, Puning Zhao, Zhan Qin, Kui Ren,
- Abstract要約: 敵のプロンプトを最適化するためのターゲットとして, LLM 自身の応答に依存する新しいジェイルブレイクフレームワークである Dynamic Target Attack (DTA) を提案する。
ホワイトボックス設定では、DTAは平均攻撃成功率(ASR)を87%以上を達成するために200の最適化イテレーションしか必要としない。
ブラックボックス設定では、DTAはブラックボックスターゲットモデルであるLlama-3-70B-Instructに対して85%のASRを達成した。
- 参考スコア(独自算出の注目度): 47.7573932414231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing gradient-based jailbreak attacks typically optimize an adversarial suffix to induce a fixed affirmative response. However, this fixed target usually resides in an extremely low-density region of a safety-aligned LLM's output distribution conditioned on diverse harmful inputs. Due to the substantial discrepancy between the target and the original output, existing attacks require numerous iterations to optimize the adversarial prompt, which might still fail to induce the low-probability target response from the target LLM. In this paper, we propose Dynamic Target Attack (DTA), a new jailbreaking framework relying on the target LLM's own responses as targets to optimize the adversarial prompts. In each optimization round, DTA iteratively samples multiple candidate responses directly from the output distribution conditioned on the current prompt, and selects the most harmful response as a temporary target for prompt optimization. In contrast to existing attacks, DTA significantly reduces the discrepancy between the target and the output distribution, substantially easing the optimization process to search for an effective adversarial prompt. Extensive experiments demonstrate the superior effectiveness and efficiency of DTA: under the white-box setting, DTA only needs 200 optimization iterations to achieve an average attack success rate (ASR) of over 87\% on recent safety-aligned LLMs, exceeding the state-of-the-art baselines by over 15\%. The time cost of DTA is 2-26 times less than existing baselines. Under the black-box setting, DTA uses Llama-3-8B-Instruct as a surrogate model for target sampling and achieves an ASR of 85\% against the black-box target model Llama-3-70B-Instruct, exceeding its counterparts by over 25\%.
- Abstract(参考訳): 既存の勾配に基づくジェイルブレイク攻撃は、通常、固定された肯定応答を誘導するために敵の接尾辞を最適化する。
しかしながら、この固定されたターゲットは通常、様々な有害な入力を条件とした安全整列LSMの出力分布の極めて低密度領域に存在する。
ターゲットと元の出力にかなりの差があるため、既存の攻撃では敵のプロンプトを最適化するために多数の反復が必要であり、目標のLSMから低確率なターゲット応答を誘導できない可能性がある。
本稿では,敵のプロンプトを最適化するために,LLM自身の応答をターゲットとする新しいジェイルブレイクフレームワークであるDynamic Target Attack (DTA)を提案する。
各最適化ラウンドでは、DTAは、現在のプロンプトに条件付けられた出力分布から直接複数の候補応答を反復的にサンプリングし、最も有害な応答を一時的なターゲットとして選択し、プロンプト最適化を行う。
既存の攻撃とは対照的に、DTAは目標と出力分布の差を著しく低減し、効果的な敵のプロンプトを探索するための最適化プロセスを大幅に緩和する。
ホワイトボックス設定の下では、DTAは、最近の安全に配慮したLCMにおいて平均攻撃成功率(ASR)を87 %以上達成し、最先端のベースラインを15 %以上越えるために、200 回の最適化イテレーションしか必要としない。
DTAの時間コストは、既存のベースラインの2-26倍である。
ブラックボックス設定では、DTAはターゲットサンプリングの代理モデルとしてLlama-3-8B-Instructを使用し、ブラックボックスターゲットモデルであるLlama-3-70B-Instructに対して85倍のASRを達成する。
関連論文リスト
- Untargeted Jailbreak Attack [42.94437968995701]
勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃
本稿では,事前定義されたパターンを強制することなく,安全でない応答を誘発することを目的とした,最初の勾配に基づく非目標ジェイルブレイク攻撃(UJA)を提案する。
大規模な評価は、textscUJAが最近の安全対応LCMに対して80%以上の攻撃成功率を達成することを実証している。
論文 参考訳(メタデータ) (2025-10-03T13:38:56Z) - AEGIS : Automated Co-Evolutionary Framework for Guarding Prompt Injections Schema [39.44407870355891]
AEGISは,プロンプトインジェクションのガードのための自動共進化フレームワークである。
攻撃プロンプトと防御プロンプトは、勾配のような自然言語プロンプト最適化技術を用いて互いに反復的に最適化される。
本研究では,実世界のアサイングレーティングデータセットを用いたインジェクション攻撃の評価を行い,本手法が既存のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-27T12:25:45Z) - Tail-aware Adversarial Attacks: A Distributional Approach to Efficient LLM Jailbreaking [44.8238758047607]
既存の敵攻撃は、通常、単一点、欲張り世代における有害な反応を標的にしている。
本稿では,テールリスクを含む出力分布全体を明示的にモデル化する,逆評価のための新しいフレームワークを提案する。
我々のフレームワークはまた、異なる攻撃アルゴリズムが出力の害分布にどのように影響するかを分析することができる。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks [87.66245688589977]
LLM統合されたアプリケーションとエージェントは、インジェクション攻撃に弱い。
検出方法は、入力が注入プロンプトによって汚染されているかどうかを判定することを目的とする。
本研究では,迅速なインジェクション攻撃を検出するゲーム理論手法であるDataSentinelを提案する。
論文 参考訳(メタデータ) (2025-04-15T16:26:21Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。