論文の概要: Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs
- arxiv url: http://arxiv.org/abs/2506.17231v1
- Date: Mon, 26 May 2025 08:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.805869
- Title: Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs
- Title(参考訳): LLMからSLMへの逆プロンプト蒸留による高効率で安定なジェイルブレイク攻撃
- Authors: Xiang Li, Chong Zhang, Jia Wang, Fangyu Wu, Yushi Li, Xiaobo Jin,
- Abstract要約: ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。
現在のジェイルブレイク攻撃法は、低効率、高い計算コスト、低いクロスモデル適応性といった問題に直面している。
本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を組み合わせた適応型プロンプト蒸留法を提案する。
- 参考スコア(独自算出の注目度): 15.640342726041732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attacks on large language models (LLMs) in jailbreaking scenarios raise many security and ethical issues. Current jailbreak attack methods face problems such as low efficiency, high computational cost, and poor cross-model adaptability and versatility, which make it difficult to cope with the rapid development of LLM and new defense strategies. Our work proposes an Adversarial Prompt Distillation, which combines masked language modeling, reinforcement learning, and dynamic temperature control through a prompt generation and distillation method. It enables small language models (SLMs) to jailbreak attacks on mainstream LLMs. The experimental results verify the superiority of the proposed method in terms of attack success rate and harm, and reflect the resource efficiency and cross-model adaptability. This research explores the feasibility of distilling the jailbreak ability of LLM to SLM, reveals the model's vulnerability, and provides a new idea for LLM security research.
- Abstract(参考訳): ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。
現在のジェイルブレイク攻撃法は、低効率、高計算コスト、クロスモデル適応性、多目的性などの問題に直面しており、LCMの急速な開発や新しい防衛戦略に対処することが困難である。
本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を, 即時生成・蒸留方式で組み合わせた, 適応型プロンプト蒸留法を提案する。
小規模な言語モデル(SLM)が主流のLDMに対するジェイルブレイク攻撃を可能にする。
実験により,攻撃成功率と害度の観点から提案手法の優越性を検証し,資源効率とクロスモデル適応性を反映した。
本研究では, LLM の脱獄能力を SLM に蒸留する可能性について検討し, モデルの脆弱性を明らかにするとともに, LLM のセキュリティ研究に新たなアイデアを提供する。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - SQL Injection Jailbreak: A Structural Disaster of Large Language Models [71.55108680517422]
大規模言語モデル(LLM)は、有害なコンテンツを生成するよう誘導するジェイルブレイク攻撃の影響を受けやすい。
本稿では,LLMの外部特性をターゲットとした新しいジェイルブレイク手法を提案する。
ユーザプロンプトにジェイルブレイク情報を注入することで、SIJは有害なコンテンツを出力するモデルをうまく誘導する。
論文 参考訳(メタデータ) (2024-11-03T13:36:34Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。
近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。
そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文 参考訳(メタデータ) (2024-05-28T13:26:12Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Revisiting Jailbreaking for Large Language Models: A Representation Engineering Perspective [43.94115802328438]
最近のジェイルブレイク攻撃の急増により、悪意のある入力に晒された場合、Large Language Models(LLM)の重大な脆弱性が明らかになった。
LLMの自己保護能力は,その表現空間内の特定の行動パターンと関係があることが示唆された。
これらのパターンは,数対のコントラストクエリで検出可能であることを示す。
論文 参考訳(メタデータ) (2024-01-12T00:50:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。