論文の概要: Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks
- arxiv url: http://arxiv.org/abs/2601.03420v1
- Date: Tue, 06 Jan 2026 21:14:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.073747
- Title: Jailbreaking LLMs Without Gradients or Priors: Effective and Transferable Attacks
- Title(参考訳): グラディエントやプライオリティのないLLMをジェイルブレイクする - 効果的で転送可能な攻撃
- Authors: Zhakshylyk Nurlanov, Frank R. Schmidt, Florian Bernard,
- Abstract要約: RAILSは,モデルロジットのみで動作するフレームワークである。
RAILSは勾配依存を排除し、クロストケナイザーアンサンブル攻撃を可能にする。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
- 参考スコア(独自算出の注目度): 22.52730333160258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed in safety-critical domains, rigorously evaluating their robustness against adversarial jailbreaks is essential. However, current safety evaluations often overestimate robustness because existing automated attacks are limited by restrictive assumptions. They typically rely on handcrafted priors or require white-box access for gradient propagation. We challenge these constraints by demonstrating that token-level iterative optimization can succeed without gradients or priors. We introduce RAILS (RAndom Iterative Local Search), a framework that operates solely on model logits. RAILS matches the effectiveness of gradient-based methods through two key innovations: a novel auto-regressive loss that enforces exact prefix matching, and a history-based selection strategy that bridges the gap between the proxy optimization objective and the true attack success rate. Crucially, by eliminating gradient dependency, RAILS enables cross-tokenizer ensemble attacks. This allows for the discovery of shared adversarial patterns that generalize across disjoint vocabularies, significantly enhancing transferability to closed-source systems. Empirically, RAILS achieves near 100% success rates on multiple open-source models and high black-box attack transferability to closed-source systems like GPT and Gemini.
- Abstract(参考訳): 大規模言語モデル(LLM)は、安全クリティカルなドメインにますますデプロイされているため、敵の脱獄に対する堅牢性を厳格に評価することが不可欠である。
しかしながら、既存の自動攻撃は制限的な仮定によって制限されるため、現在の安全性評価はしばしば頑健さを過大評価する。
それらは通常、手作りの先行技術に依存するか、勾配伝播のためにホワイトボックスアクセスを必要とする。
トークンレベルの反復最適化が勾配や前もって成功できることを実証することで、これらの制約に挑戦する。
RAILS(RAndom Iterative Local Search)は,モデルロジットのみで動作するフレームワークである。
RAILSは、厳密なプレフィックスマッチングを強制する新しい自動回帰損失と、プロキシ最適化目標と真のアタック成功率のギャップを埋める履歴ベースの選択戦略という、2つの重要なイノベーションを通じて、勾配ベースの手法の有効性にマッチする。
重要なのは、勾配依存をなくすことで、RAILSはクロストケナイザーアンサンブル攻撃を可能にする。
これにより、解離した語彙にまたがって一般化する共有逆数パターンの発見が可能となり、クローズドソースシステムへの転送可能性を大幅に向上する。
RAILSは、複数のオープンソースモデルで100%近い成功率と、GPTやGeminiのようなクローズドソースシステムへの高いブラックボックス攻撃転送性を実現している。
関連論文リスト
- RL-MTJail: Reinforcement Learning for Automated Black-Box Multi-Turn Jailbreaking of Large Language Models [60.201244463046784]
大規模な言語モデルは、ジェイルブレイク攻撃に弱い。
本稿では,ブラックボックスのマルチターンジェイルブレイクについて検討し,ブラックボックスモデルから有害なコンテンツを引き出すように攻撃者のLDMを訓練することを目的とした。
論文 参考訳(メタデータ) (2025-12-08T17:42:59Z) - RAID: Refusal-Aware and Integrated Decoding for Jailbreaking LLMs [17.313975711973374]
RAID(Refusal-Aware and Integrated Decoding)は、拡散を保ちながら制限されたコンテンツを誘導する敵の接尾辞を作成するフレームワークである。
RAIDは,最近のホワイトボックスやブラックボックスのベースラインよりもクエリが少なく,計算コストも低く,攻撃成功率が高いことを示す。
論文 参考訳(メタデータ) (2025-10-14T19:33:09Z) - Untargeted Jailbreak Attack [42.94437968995701]
勾配に基づく大規模言語モデル(LLM)に対するジェイルブレイク攻撃
本稿では,事前定義されたパターンを強制することなく,安全でない応答を誘発することを目的とした,最初の勾配に基づく非目標ジェイルブレイク攻撃(UJA)を提案する。
広範囲な評価により、UJAは最近の安全に配慮したLLMに対して、たった100回の最適化イテレーションで80%以上の攻撃成功率を達成できることが示されている。
論文 参考訳(メタデータ) (2025-10-03T13:38:56Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - Universal and Transferable Adversarial Attack on Large Language Models Using Exponentiated Gradient Descent [1.1187085721899017]
大規模言語モデル(LLM)は、ますます重要なアプリケーションにデプロイされている。
LLMは、ユーザプロンプトに付加された対逆トリガーによって実現されたジェイルブレイク攻撃に対して脆弱なままである。
逆接接尾辞トークンの緩和されたワンホット符号化を直接最適化する本質的な最適化手法を提案する。
論文 参考訳(メタデータ) (2025-08-20T17:03:32Z) - Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。
我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文 参考訳(メタデータ) (2025-02-24T15:34:48Z) - Jailbreak Attack Initializations as Extractors of Compliance Directions [5.910850302054065]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。
近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。
コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:25:40Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。