論文の概要: JULI: Jailbreak Large Language Models by Self-Introspection
- arxiv url: http://arxiv.org/abs/2505.11790v2
- Date: Tue, 20 May 2025 07:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.408156
- Title: JULI: Jailbreak Large Language Models by Self-Introspection
- Title(参考訳): JULI: 自己検査による大規模言語モデルの脱獄
- Authors: Jesson Wang, Zhanhao Hu, David Wagner,
- Abstract要約: LLM(Large Language Models)は、悪意のあるコンテンツの生成を防ぐために、安全アライメントをトレーニングする。
トークンログの確率を操作することで,LDMをジェイルブレイクするJULI(Jailbreaking Using LLM Introspection)を提案する。
提案手法は,既存のSOTA(State-of-the-art)アプローチよりも優れた効果を示す。
- 参考スコア(独自算出の注目度): 2.1267423178232407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are trained with safety alignment to prevent generating malicious content. Although some attacks have highlighted vulnerabilities in these safety-aligned LLMs, they typically have limitations, such as necessitating access to the model weights or the generation process. Since proprietary models through API-calling do not grant users such permissions, these attacks find it challenging to compromise them. In this paper, we propose Jailbreaking Using LLM Introspection (JULI), which jailbreaks LLMs by manipulating the token log probabilities, using a tiny plug-in block, BiasNet. JULI relies solely on the knowledge of the target LLM's predicted token log probabilities. It can effectively jailbreak API-calling LLMs under a black-box setting and knowing only top-$5$ token log probabilities. Our approach demonstrates superior effectiveness, outperforming existing state-of-the-art (SOTA) approaches across multiple metrics.
- Abstract(参考訳): LLM(Large Language Models)は、悪意のあるコンテンツの生成を防ぐために、安全アライメントをトレーニングする。
一部の攻撃は、これらの安全に整合したLSMの脆弱性を強調しているが、モデルウェイトへのアクセスや生成プロセスなどの制限がある。
APIコールによるプロプライエタリなモデルでは,そのようなパーミッションがユーザに許可されていないため,これらの攻撃は,それらを妥協することが難しい。
本稿では,小さなプラグインブロックであるBiasNetを用いて,トークンログの確率を操作することでLDMをジェイルブレイクするJulbreaking Using LLM Introspection (JULI)を提案する。
JULI は LLM の予測トークンログ確率の知識にのみ依存する。
ブラックボックス設定でAPIコールのLDMを効果的にジェイルブレイクでき、トークンログの5ドル以上の確率しか知らない。
提案手法は,既存のSOTA(State-of-the-art)アプローチよりも優れた効果を示す。
関連論文リスト
- EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Jailbreaking Black Box Large Language Models in Twenty Queries [97.29563503097995]
大規模言語モデル(LLM)は、敵のジェイルブレイクに対して脆弱である。
LLMへのブラックボックスアクセスのみのセマンティックジェイルブレイクを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T15:38:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。