論文の概要: ShallowJail: Steering Jailbreaks against Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07107v1
- Date: Fri, 06 Feb 2026 18:35:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.45347
- Title: ShallowJail: Steering Jailbreaks against Large Language Models
- Title(参考訳): ShallowJail: 大規模言語モデルに対するジェイルブレークのステアリング
- Authors: Shang Liu, Hanyu Pei, Zeyan Liu,
- Abstract要約: LLMの浅いアライメントを利用する新たな攻撃であるShallowJailを紹介する。
ShallowJailは、推論中に初期トークンを操作することで、LSMのレスポンスを誤操作することができる。
広汎な実験により,最先端のLCM応答の安全性を著しく低下させるシャローの有効性を実証した。
- 参考スコア(独自算出の注目度): 7.9152592631238425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models(LLMs) have been successful in numerous fields. Alignment has usually been applied to prevent them from harmful purposes. However, aligned LLMs remain vulnerable to jailbreak attacks that deliberately mislead them into producing harmful outputs. Existing jailbreaks are either black-box, using carefully crafted, unstealthy prompts, or white-box, requiring resource-intensive computation. In light of these challenges, we introduce ShallowJail, a novel attack that exploits shallow alignment in LLMs. ShallowJail can misguide LLMs' responses by manipulating the initial tokens during inference. Through extensive experiments, we demonstrate the effectiveness of~\shallow, which substantially degrades the safety of state-of-the-art LLM responses.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの分野で成功している。
通常、アライメントは有害な目的から防ぐために適用される。
しかし、LLMのアライメントは、故意にそれらを有害な出力に誤解させるジェイルブレイク攻撃に弱いままである。
既存のジェイルブレイクはブラックボックスで、慎重に作り直され、不便なプロンプトを使うか、ホワイトボックスで、リソース集約的な計算を必要とする。
これらの課題を踏まえて、LLMの浅いアライメントを利用する新たな攻撃であるShallowJailを紹介します。
ShallowJailは、推論中に初期トークンを操作することで、LSMのレスポンスを誤操作することができる。
広汎な実験により, 最先端LCM応答の安全性を著しく低下させる~\shallowの有効性を実証した。
関連論文リスト
- Mind the Inconspicuous: Revealing the Hidden Weakness in Aligned LLMs' Refusal Boundaries [22.24239212756129]
複数のシーケンス(eos)トークンを単に追加するだけで、コンテキストセグメンテーションと呼ばれる現象が発生します。
本稿では, eos トークンを付加することにより, BOOST ジェイルブレイク攻撃の簡単な方法を提案する。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。