論文の概要: ShallowJail: Steering Jailbreaks against Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07107v1
- Date: Fri, 06 Feb 2026 18:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.45347
- Title: ShallowJail: Steering Jailbreaks against Large Language Models
- Title(参考訳): ShallowJail: 大規模言語モデルに対するジェイルブレークのステアリング
- Authors: Shang Liu, Hanyu Pei, Zeyan Liu,
- Abstract要約: LLMの浅いアライメントを利用する新たな攻撃であるShallowJailを紹介する。
ShallowJailは、推論中に初期トークンを操作することで、LSMのレスポンスを誤操作することができる。
広汎な実験により,最先端のLCM応答の安全性を著しく低下させるシャローの有効性を実証した。
- 参考スコア(独自算出の注目度): 7.9152592631238425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models(LLMs) have been successful in numerous fields. Alignment has usually been applied to prevent them from harmful purposes. However, aligned LLMs remain vulnerable to jailbreak attacks that deliberately mislead them into producing harmful outputs. Existing jailbreaks are either black-box, using carefully crafted, unstealthy prompts, or white-box, requiring resource-intensive computation. In light of these challenges, we introduce ShallowJail, a novel attack that exploits shallow alignment in LLMs. ShallowJail can misguide LLMs' responses by manipulating the initial tokens during inference. Through extensive experiments, we demonstrate the effectiveness of~\shallow, which substantially degrades the safety of state-of-the-art LLM responses.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの分野で成功している。
通常、アライメントは有害な目的から防ぐために適用される。
しかし、LLMのアライメントは、故意にそれらを有害な出力に誤解させるジェイルブレイク攻撃に弱いままである。
既存のジェイルブレイクはブラックボックスで、慎重に作り直され、不便なプロンプトを使うか、ホワイトボックスで、リソース集約的な計算を必要とする。
これらの課題を踏まえて、LLMの浅いアライメントを利用する新たな攻撃であるShallowJailを紹介します。
ShallowJailは、推論中に初期トークンを操作することで、LSMのレスポンスを誤操作することができる。
広汎な実験により, 最先端LCM応答の安全性を著しく低下させる~\shallowの有効性を実証した。
関連論文リスト
- Confusion is the Final Barrier: Rethinking Jailbreak Evaluation and Investigating the Real Misuse Threat of LLMs [16.95831588112687]
本研究では, 危険知識保持, 有害タスク計画ユーティリティ, 有害性判定の観点から, 大規模言語モデル(LLM)の誤用脅威について検討した。
実験では、脱獄の成功率と LLM における有害な知識保持のミスマッチが明らかとなり、既存の LLM-as-a-judge フレームワークは有害な言語パターンに対する有害な判断を抑える傾向にある。
論文 参考訳(メタデータ) (2025-08-22T12:41:26Z) - JULI: Jailbreak Large Language Models by Self-Introspection [2.1267423178232407]
LLM(Large Language Models)は、悪意のあるコンテンツの生成を防ぐために、安全アライメントをトレーニングする。
トークンログの確率を操作することで,LDMをジェイルブレイクするJULI(Jailbreaking Using LLM Introspection)を提案する。
提案手法は,既存のSOTA(State-of-the-art)アプローチよりも優れた効果を示す。
論文 参考訳(メタデータ) (2025-05-17T02:28:12Z) - Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。
本稿では,Token Highlighterという手法を提案する。
論文 参考訳(メタデータ) (2024-12-24T05:10:02Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - How Alignment and Jailbreak Work: Explain LLM Safety through Intermediate Hidden States [65.45603614354329]
大規模言語モデル(LLM)は、悪意のあるユーザ入力に対する応答を避けるために、安全アライメントに依存している。
ジェイルブレイクは安全ガードレールを回避でき、LLMは有害な内容を生成する。
中間隠蔽状態を通してLSMの安全性を説明するために弱い分類器を用いる。
論文 参考訳(メタデータ) (2024-06-09T05:04:37Z) - Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries [22.24239212756129]
複数のシーケンス(eos)トークンを単に追加するだけで、コンテキストセグメンテーションと呼ばれる現象が発生します。
本稿では, eos トークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。