論文の概要: One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
- arxiv url: http://arxiv.org/abs/2604.25921v1
- Date: Wed, 01 Apr 2026 04:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:14.220678
- Title: One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety
- Title(参考訳): LLMの安全性を損なうインクリメンタルコンプリート分解
- Authors: Samee Arif, Naihao Deng, Zhijing Jin, Rada Mihalcea,
- Abstract要約: 大きな言語モデル(LLM)は有害な要求を拒否するように訓練されているが、Jailbreak攻撃に弱いままである。
Incrmental Completion Decomposition (ICD) を導入する。
ICDは、全応答を誘発する前に、悪意のある要求に関連する一語連続のシーケンスを付与することを示す。
- 参考スコア(独自算出の注目度): 43.878014611820824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are trained to refuse harmful requests, yet they remain vulnerable to jailbreak attacks that exploit weaknesses in conversational safety mechanisms. We introduce Incremental Completion Decomposition (ICD), a trajectory-based jailbreak strategy that elicits a sequence of single-word continuations related to a malicious request before eliciting the full response. In addition, we propose variants of ICD by manually picking or model-generating the one-word continuation, as well as prefilling when eliciting the full model response in the final step. We systematically evaluate these variants across a broad set of model families, demonstrating superior Attack Success Rate (ASR) on AdvBench, JailbreakBench, and StrongREJECT compared to existing methods. In addition, we provide a theoretical account of why ICD is effective and present mechanistic evidence that successful attack trajectories systematically suppress refusal-related representations and shift activations away from safety-aligned states.
- Abstract(参考訳): 大きな言語モデル(LLM)は有害な要求を拒否するように訓練されているが、会話の安全性メカニズムの弱点を悪用するジェイルブレイク攻撃には弱いままである。
Incrmental Completion Decomposition (ICD) は、悪意のある要求に関連する一連の単一単語の継続を、完全な応答を引き出す前に引き起こすトラジェクトリベースのジェイルブレイク戦略である。
さらに、1ワード継続を手動で選択またはモデル生成し、最終ステップで完全なモデル応答を誘発する前処理を行うことにより、ICDの変種を提案する。
従来の手法と比較して,AdvBench,JailbreakBench,StrongREJECTにおいて,より優れたアタック成功率(ASR)を示す。
さらに,ICDが有効である理由を理論的に説明するとともに,攻撃経路の成功が拒絶関連表現を系統的に抑制し,安全性に配慮した状態から活性化を逸脱させるという機構的証拠を提示する。
関連論文リスト
- Fail-Closed Alignment for Large Language Models [4.205036273334146]
本研究では,大規模言語モデルの安全性向上のための設計原則として,フェールクロースアライメントを提案する。
本稿では、事前学習した拒絶方向を反復的に識別し、非難するプログレッシブアライメント・フレームワークを提案する。
メカニスティック解析により,本手法で訓練したモデルでは,プロンプトベースのジェイルブレイクが同時に抑制できない複数の因果的に独立な拒絶方向を符号化することを確認した。
論文 参考訳(メタデータ) (2026-02-19T00:33:35Z) - Jailbreaking Large Language Models through Iterative Tool-Disguised Attacks via Reinforcement Learning [26.571996871795154]
iMIST (underlineinteractive underlineMulti-step underlineProgreunderlinessive underlineTool-disguised Jailbreak Attack) は、現在の防御機構の脆弱性を利用する新しい適応型ジェイルブレイク手法である。
広く使われているモデルの実験では、iMISTは低い拒絶率を維持しながら高い攻撃効果を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-09T01:41:39Z) - AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。
本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。
我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文 参考訳(メタデータ) (2025-04-18T08:38:56Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Jailbreak Attack Initializations as Extractors of Compliance Directions [5.910850302054065]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。
近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。
コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:25:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。