論文の概要: TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models
- arxiv url: http://arxiv.org/abs/2603.03081v1
- Date: Tue, 03 Mar 2026 15:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.854795
- Title: TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models
- Title(参考訳): TAO-Attack: 大規模言語モデルに対する高度な最適化ベースのジェイルブレイク攻撃を目指して
- Authors: Zhi Xu, Jiaqi Li, Xiaotong Zhang, Hong Yu, Han Liu,
- Abstract要約: 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めたが、ジェイルブレイク攻撃には弱いままである。
本稿では,新しい最適化手法であるTAO-Attackを提案する。
TAO-Attackは最先端の手法を一貫して上回り、攻撃の成功率を高め、特定のシナリオで100%に達する。
- 参考スコア(独自算出の注目度): 15.495882533240833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have achieved remarkable success across diverse applications but remain vulnerable to jailbreak attacks, where attackers craft prompts that bypass safety alignment and elicit unsafe responses. Among existing approaches, optimization-based attacks have shown strong effectiveness, yet current methods often suffer from frequent refusals, pseudo-harmful outputs, and inefficient token-level updates. In this work, we propose TAO-Attack, a new optimization-based jailbreak method. TAO-Attack employs a two-stage loss function: the first stage suppresses refusals to ensure the model continues harmful prefixes, while the second stage penalizes pseudo-harmful outputs and encourages the model toward more harmful completions. In addition, we design a direction-priority token optimization (DPTO) strategy that improves efficiency by aligning candidates with the gradient direction before considering update magnitude. Extensive experiments on multiple LLMs demonstrate that TAO-Attack consistently outperforms state-of-the-art methods, achieving higher attack success rates and even reaching 100\% in certain scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なアプリケーションで顕著な成功を収めているが、ジェイルブレイク攻撃に弱いままであり、攻撃者は安全アライメントを回避し、安全でない応答を誘導する。
従来のアプローチでは、最適化ベースの攻撃は強い効果を示してきたが、現在の手法では頻繁に拒否されることが多く、擬似ハーモフルな出力、非効率なトークンレベルの更新に悩まされている。
本研究では,新しい最適化手法であるTAO-Attackを提案する。
TAO-Attackは2段階の損失関数を用いており、第1段階はモデルが有害な接頭辞を継続するために拒絶を抑え、第2段階は擬似有害な出力をペナルティ化し、より有害な完了に向けてモデルを奨励する。
さらに、更新等級を考慮せずに、候補を勾配方向と整列させることにより効率を向上する方向優先トークン最適化(DPTO)戦略を設計する。
複数のLLMに対する大規模な実験により、TAO-Attackは最先端の手法を一貫して上回り、より高い攻撃成功率を達成し、特定のシナリオで100\%に達することさえ示している。
関連論文リスト
- Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks [22.52730333160258]
RAILSは,モデルロジットのみで動作するフレームワークである。
RAILSは勾配依存を排除し、クロストケナイザーアンサンブル攻撃を可能にする。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
論文 参考訳(メタデータ) (2026-01-06T21:14:13Z) - RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Untargeted Jailbreak Attack [42.94437968995701]
勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃
本稿では,事前定義されたパターンを強制することなく,安全でない応答を誘発することを目的とした,最初の勾配に基づく非目標ジェイルブレイク攻撃(UJA)を提案する。
広範囲な評価により、UJAは最近の安全に配慮したLLMに対して、たった100回の最適化イテレーションで80%以上の攻撃成功率を達成できることが示されている。
論文 参考訳(メタデータ) (2025-10-03T13:38:56Z) - Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience [36.525169416008886]
大規模言語モデル(LLM)は、一定の安全性の制約の下で、ヒューマンアラインなコンテンツを生成する。
textbfJailExpertフレームワークは、初めてエクスペリエンス構造を形式的に表現したフレームワークである。
JailExpertは平均17%の攻撃成功率と2.7倍の改善を実現している。
論文 参考訳(メタデータ) (2025-08-25T14:16:30Z) - Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-08-20T17:03:32Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Boosting Jailbreak Transferability for Large Language Models [10.884050438726215]
不整合出力を削減するために,シナリオ誘導テンプレート,最適化された接尾辞選択,および再接尾辞攻撃機構の統合を提案する。
提案手法は,様々なベンチマーク実験において優れた性能を示し,攻撃実行と転送可能性の両方において100%近い成功率を達成した。
論文 参考訳(メタデータ) (2024-10-21T05:11:19Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Attacking Large Language Models with Projected Gradient Descent [49.19426387912186]
逆数プロンプトの射影勾配 Descent (PGD) は、最先端の離散最適化よりも最大1桁高速である。
我々のLPM用PGDは、同じ破壊的な攻撃結果を達成するために、最先端の離散最適化よりも最大1桁高速である。
論文 参考訳(メタデータ) (2024-02-14T13:13:26Z) - Revisiting and Advancing Fast Adversarial Training Through The Lens of
Bi-Level Optimization [60.72410937614299]
提案手法は,2レベルAT(FAST-BAT)と呼ばれる新しいアルゴリズムセットの設計と解析である。
FAST-BATは、グラデーションサインメソッドや明示的なロバスト正規化を呼ぶことなく、符号ベースの投射降下(PGD)攻撃を防御することができる。
論文 参考訳(メタデータ) (2021-12-23T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。