論文の概要: RAID: Refusal-Aware and Integrated Decoding for Jailbreaking LLMs
- arxiv url: http://arxiv.org/abs/2510.13901v1
- Date: Tue, 14 Oct 2025 19:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.526354
- Title: RAID: Refusal-Aware and Integrated Decoding for Jailbreaking LLMs
- Title(参考訳): RAID: 脱獄 LLM の拒否認識と統合復号化
- Authors: Tuan T. Nguyen, John Le, Thai T. Vu, Willy Susilo, Heath Cooper,
- Abstract要約: RAID(Refusal-Aware and Integrated Decoding)は、拡散を保ちながら制限されたコンテンツを誘導する敵の接尾辞を作成するフレームワークである。
RAIDは,最近のホワイトボックスやブラックボックスのベースラインよりもクエリが少なく,計算コストも低く,攻撃成功率が高いことを示す。
- 参考スコア(独自算出の注目度): 17.313975711973374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve impressive performance across diverse tasks yet remain vulnerable to jailbreak attacks that bypass safety mechanisms. We present RAID (Refusal-Aware and Integrated Decoding), a framework that systematically probes these weaknesses by crafting adversarial suffixes that induce restricted content while preserving fluency. RAID relaxes discrete tokens into continuous embeddings and optimizes them with a joint objective that (i) encourages restricted responses, (ii) incorporates a refusal-aware regularizer to steer activations away from refusal directions in embedding space, and (iii) applies a coherence term to maintain semantic plausibility and non-redundancy. After optimization, a critic-guided decoding procedure maps embeddings back to tokens by balancing embedding affinity with language-model likelihood. This integration yields suffixes that are both effective in bypassing defenses and natural in form. Experiments on multiple open-source LLMs show that RAID achieves higher attack success rates with fewer queries and lower computational cost than recent white-box and black-box baselines. These findings highlight the importance of embedding-space regularization for understanding and mitigating LLM jailbreak vulnerabilities.
- Abstract(参考訳): 大規模言語モデル(LLM)は、さまざまなタスクにわたって優れたパフォーマンスを達成するが、安全メカニズムをバイパスするジェイルブレイク攻撃には脆弱である。
RAID(Refusal-Aware and Integrated Decoding)は,フラエンシを保ちながら制限されたコンテンツを誘導する逆接尾辞を作成することで,これらの弱点を体系的に調査するフレームワークである。
RAIDは離散トークンを連続的な埋め込みに緩和し、それらを共同目的で最適化する
(i)制限された応答を奨励する。
(二)レギュレータを組み込んで、埋め込み空間における拒絶方向から活性化を制御し、
(iii)意味的妥当性と非冗長性を維持するためにコヒーレンス項を適用する。
最適化後、批評家誘導の復号手順は、埋め込み親和性と言語モデルの可能性のバランスをとることによって、埋め込みをトークンにマップする。
この統合は、防御をバイパスし、自然に形を変えるのに効果的である接尾辞をもたらす。
複数のオープンソースのLCMの実験により、RAIDは最近のホワイトボックスやブラックボックスのベースラインよりも少ないクエリと計算コストで高い攻撃成功率を達成することが示された。
これらの知見は, LLMjailbreak脆弱性の理解と緩和のための埋め込み空間正規化の重要性を浮き彫りにした。
関連論文リスト
- Forewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Potential Attacks [29.465042445657947]
新しい攻撃は、大きな言語モデルが目に見えない悪意のある命令を認識できないことを露呈する。
組込み空間分布解析を利用してジェイルブレイクのような命令を生成する合成フレームワークIMAGINEを提案する。
Qwen2.5, Llama3.1, Llama3.2の攻撃成功率は, 有効性を損なうことなく著しく低下した。
論文 参考訳(メタデータ) (2025-08-27T16:44:03Z) - Cross-Modal Obfuscation for Jailbreak Attacks on Large Vision-Language Models [11.867355323884217]
本稿では,悪質なプロンプトを視覚的およびテキスト的フラグメントに分解する新しいブラックボックス・ジェイルブレイク攻撃フレームワークを提案する。
我々のアプローチは、調整可能な推論の複雑さをサポートし、以前の攻撃よりもはるかに少ないクエリを必要とし、ステルスと効率の両方を可能にします。
論文 参考訳(メタデータ) (2025-06-20T05:30:25Z) - Token-Efficient Prompt Injection Attack: Provoking Cessation in LLM Reasoning via Adaptive Token Compression [12.215295420714787]
推論割り込み攻撃(Reasoning Interruption Attack)は、適応トークン圧縮に基づく即発インジェクション攻撃である。
本研究では,アタックプロンプトと適応トークン圧縮フレームワークを効率的に収集するための体系的アプローチを開発する。
実効攻撃能力を保ちながら,我々の圧縮フレームワークがプロンプト長を大幅に短縮することを示す実験を行った。
論文 参考訳(メタデータ) (2025-04-29T07:34:22Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - ADVLLM: Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。