論文の概要: MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning
- arxiv url: http://arxiv.org/abs/2506.16792v1
- Date: Fri, 20 Jun 2025 07:16:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.364981
- Title: MIST: Jailbreaking Black-box Large Language Models via Iterative Semantic Tuning
- Title(参考訳): MIST: 反復的セマンティックチューニングによるブラックボックス大言語モデルの脱獄
- Authors: Muyang Zheng, Yuanzhi Yao, Changting Lin, Rui Wang, Meng Han,
- Abstract要約: そこで本研究では,MISTと命名されたIterative Semantic Tuningを用いて,大規模言語モデルのジェイルブレイクを効果的に行う手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
- 参考スコア(独自算出の注目度): 9.499650055282162
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite efforts to align large language models (LLMs) with societal and moral values, these models remain susceptible to jailbreak attacks--methods designed to elicit harmful responses. Jailbreaking black-box LLMs is considered challenging due to the discrete nature of token inputs, restricted access to the target LLM, and limited query budget. To address the issues above, we propose an effective method for jailbreaking black-box large language Models via Iterative Semantic Tuning, named MIST. MIST enables attackers to iteratively refine prompts that preserve the original semantic intent while inducing harmful content. Specifically, to balance semantic similarity with computational efficiency, MIST incorporates two key strategies: sequential synonym search, and its advanced version--order-determining optimization. Extensive experiments across two open-source models and four closed-source models demonstrate that MIST achieves competitive attack success rates and attack transferability compared with other state-of-the-art white-box and black-box jailbreak methods. Additionally, we conduct experiments on computational efficiency to validate the practical viability of MIST.
- Abstract(参考訳): 大規模言語モデル(LLM)を社会的・道徳的価値と整合させる努力にもかかわらず、これらのモデルは、有害な反応を誘発するために設計された手法であるジェイルブレイク攻撃の影響を受けやすいままである。
ジェイルブレークするブラックボックスのLSMは、トークン入力の離散性、ターゲットのLSMへのアクセスの制限、クエリ予算の制限により困難であると考えられている。
上記の問題に対処するため,MIST を名乗るイテレーティブ・セマンティック・チューニングにより,ブラックボックスの大規模言語モデルをジェイルブレイクする効果的な手法を提案する。
MISTは、攻撃者が有害なコンテンツを誘導しながら、元の意味的意図を保存するプロンプトを反復的に洗練することを可能にする。
特に、意味的類似性と計算効率のバランスをとるために、MISTはシーケンシャルな同義語探索と、その高度なバージョン順決定最適化という2つの重要な戦略を取り入れている。
2つのオープンソースモデルと4つのクローズドソースモデルにわたる大規模な実験は、MISTが他の最先端のホワイトボックスやブラックボックスのジェイルブレイク手法と比較して、競合的な攻撃成功率と攻撃転送性を達成することを示した。
さらに,MISTの実用性を検証するために,計算効率の実験を行った。
関連論文リスト
- xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。