論文の概要: Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks
- arxiv url: http://arxiv.org/abs/2601.03420v1
- Date: Tue, 06 Jan 2026 21:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.073747
- Title: Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks
- Title(参考訳): グラディエントやプライオリティのないLLMをジェイルブレイクする - 効果的で転送可能な攻撃
- Authors: Zhakshylyk Nurlanov, Frank R. Schmidt, Florian Bernard,
- Abstract要約: RAILSは,モデルロジットのみで動作するフレームワークである。
RAILSは勾配依存を排除し、クロストケナイザーアンサンブル攻撃を可能にする。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
- 参考スコア(独自算出の注目度): 22.52730333160258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed in safety-critical domains, rigorously evaluating their robustness against adversarial jailbreaks is essential. However, current safety evaluations often overestimate robustness because existing automated attacks are limited by restrictive assumptions. They typically rely on handcrafted priors or require white-box access for gradient propagation. We challenge these constraints by demonstrating that token-level iterative optimization can succeed without gradients or priors. We introduce RAILS (RAndom Iterative Local Search), a framework that operates solely on model logits. RAILS matches the effectiveness of gradient-based methods through two key innovations: a novel auto-regressive loss that enforces exact prefix matching, and a history-based selection strategy that bridges the gap between the proxy optimization objective and the true attack success rate. Crucially, by eliminating gradient dependency, RAILS enables cross-tokenizer ensemble attacks. This allows for the discovery of shared adversarial patterns that generalize across disjoint vocabularies, significantly enhancing transferability to closed-source systems. Empirically, RAILS achieves near 100% success rates on multiple open-source models and high black-box attack transferability to closed-source systems like GPT and Gemini.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全クリティカルなドメインにますますデプロイされているため、敵の脱獄に対する堅牢性を厳格に評価することが不可欠である。
しかしながら、既存の自動攻撃は制限的な仮定によって制限されるため、現在の安全性評価はしばしば頑健さを過大評価する。
それらは通常、手作りの先行技術に依存するか、勾配伝播のためにホワイトボックスアクセスを必要とする。
トークンレベルの反復最適化が勾配や前もって成功できることを実証することで、これらの制約に挑戦する。
RAILS(RAndom Iterative Local Search)は,モデルロジットのみで動作するフレームワークである。
RAILSは、厳密なプレフィックスマッチングを強制する新しい自動回帰損失と、プロキシ最適化目標と真のアタック成功率のギャップを埋める履歴ベースの選択戦略という、2つの重要なイノベーションを通じて、勾配ベースの手法の有効性にマッチする。
重要なのは、勾配依存をなくすことで、RAILSはクロストケナイザーアンサンブル攻撃を可能にする。
これにより、解離した語彙にまたがって一般化する共有逆数パターンの発見が可能となり、クローズドソースシステムへの転送可能性を大幅に向上する。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - Untargeted Jailbreak Attack [42.94437968995701]
勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃
本稿では,事前定義されたパターンを強制することなく,安全でない応答を誘発することを目的とした,最初の勾配に基づく非目標ジェイルブレイク攻撃(UJA)を提案する。
広範囲な評価により、UJAは最近の安全に配慮したLLMに対して、たった100回の最適化イテレーションで80%以上の攻撃成功率を達成できることが示されている。
論文 参考訳(メタデータ) (2025-10-03T13:38:56Z) - Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-08-20T17:03:32Z) - Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Jailbreak Attack Initializations as Extractors of Compliance Directions [5.910850302054065]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。
近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。
コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:25:40Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。