論文の概要: Activation Surgery: Jailbreaking White-box LLMs without Touching the Prompt
- arxiv url: http://arxiv.org/abs/2603.14278v1
- Date: Sun, 15 Mar 2026 08:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.716866
- Title: Activation Surgery: Jailbreaking White-box LLMs without Touching the Prompt
- Title(参考訳): アクティベーション手術:プロンプトに触れることなく、ホワイトボックスのLLMを脱獄させる
- Authors: Maël Jenny, Jérémie Dentan, Sonia Vanier, Michaël Krajecki,
- Abstract要約: 大規模言語モデル(LLM)に対するジェイルブレイク手法を提案する。
モデルの内部のアクティベーションを操作して、プロンプトを変更することなく生成軌道を変更する。
この活性化手術法は, 拒絶信号の発生場所と発生方法を明らかにし, 拒絶信号が層間を伝播するのを防止している。
- 参考スコア(独自算出の注目度): 1.6916040234975798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most jailbreak techniques for Large Language Models (LLMs) primarily rely on prompt modifications, including paraphrasing, obfuscation, or conversational strategies. Meanwhile, abliteration techniques (also known as targeted ablations of internal components) have been used to study and explain LLM outputs by probing which internal structures causally support particular responses. In this work, we combine these two lines of research by directly manipulating the model's internal activations to alter its generation trajectory without changing the prompt. Our method constructs a nearby benign prompt and performs layer-wise activation substitutions using a sequential procedure. We show that this activation surgery method reveals where and how refusal arises, and prevents refusal signals from propagating across layers, thereby inhibiting the model's safety mechanisms. Finally, we discuss the security implications for open-weights models and instrumented inference environments.
- Abstract(参考訳): LLM(Large Language Models)のジェイルブレイク技術のほとんどは、パラフレーズ、難読化、会話戦略などの迅速な修正に依存している。
一方、内部構造が特定の応答を因果的に支持する探索によってLCM出力を研究・説明するために、アブリーブ化技術(内部成分のターゲットアブレーションとしても知られる)が用いられている。
本研究では、モデルの内部活性化を直接操作し、プロンプトを変更することなく生成軌道を変更することにより、これらの2つの研究の行を結合する。
本手法は,近傍の良性プロンプトを構築し,シーケンシャル手順を用いて層ワイドアクティベーション置換を行う。
この活性化手術法は, 拒絶信号が層間を伝播するのを防止し, モデルの安全機構を阻害することを示す。
最後に、オープンウェイトモデルとインスツルメント推論環境のセキュリティへの影響について論じる。
関連論文リスト
- Jailbreaking Leaves a Trace: Understanding and Detecting Jailbreak Attacks from Internal Representations of Large Language Models [2.6140509675507384]
我々はセキュリティと解釈可能性の両方の観点からジェイルブレイクを研究する。
隠れアクティベーションにおける構造をキャプチャするテンソルベース潜在表現フレームワークを提案する。
以上の結果から,脱獄行動が内部構造に根ざしていることが示唆された。
論文 参考訳(メタデータ) (2026-02-12T02:43:17Z) - The Trojan Knowledge: Bypassing Commercial LLM Guardrails via Harmless Prompt Weaving and Adaptive Tree Search [58.8834056209347]
大規模言語モデル(LLM)は、有害な出力を誘導するために安全ガードレールをバイパスするジェイルブレイク攻撃に弱いままである。
CKA-Agent(Correlated Knowledge Attack Agent)は、ターゲットモデルの知識基盤の適応的木構造探索としてジェイルブレイクを再構成する動的フレームワークである。
論文 参考訳(メタデータ) (2025-12-01T07:05:23Z) - Do Internal Layers of LLMs Reveal Patterns for Jailbreak Detection? [2.6140509675507384]
大規模言語モデル(LLM)の内部表現を調べることでジェイルブレイク現象を研究する。
具体的には、オープンソースのLCM GPT-Jと状態空間モデルMamba2を分析する。
本研究は,ロバストなジェイルブレイク検出・防御のための内部モデル力学の活用に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2025-10-08T02:55:31Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Probing Latent Subspaces in LLM for AI Security: Identifying and Manipulating Adversarial States [0.0]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは、迅速な注射攻撃による脱獄のような敵の操作に弱いままである。
LLMから隠れた活性化を抽出し, 安全状態と脱獄状態の潜伏部分空間について検討した。
論文 参考訳(メタデータ) (2025-03-12T04:59:22Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。