論文の概要: Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.23404v1
- Date: Thu, 29 May 2025 12:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.853905
- Title: Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models
- Title(参考訳): 大規模言語モデルの意味的理解能力に基づく適応的ジェイルブレイク戦略
- Authors: Mingyu Yu, Wei Wang, Yanjie Wei, Sujuan Qin,
- Abstract要約: 大規模言語モデル(LLM)に対するジェイルブレイク技術による敵攻撃は、AIセキュリティにおいて重要な課題として浮上している。
本稿では,大規模言語モデルの意味的理解能力に基づく適応的ジェイルブレーク戦略を提案する。
GPT-4oの脱獄率は98.9%である。
- 参考スコア(独自算出の注目度): 3.5252012873050025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial attacks on Large Language Models (LLMs) via jailbreaking techniques-methods that circumvent their built-in safety and ethical constraints-have emerged as a critical challenge in AI security. These attacks compromise the reliability of LLMs by exploiting inherent weaknesses in their comprehension capabilities. This paper investigates the efficacy of jailbreaking strategies that are specifically adapted to the diverse levels of understanding exhibited by different LLMs. We propose the Adaptive Jailbreaking Strategies Based on the Semantic Understanding Capabilities of Large Language Models, a novel framework that classifies LLMs into Type I and Type II categories according to their semantic comprehension abilities. For each category, we design tailored jailbreaking strategies aimed at leveraging their vulnerabilities to facilitate successful attacks. Extensive experiments conducted on multiple LLMs demonstrate that our adaptive strategy markedly improves the success rate of jailbreaking. Notably, our approach achieves an exceptional 98.9% success rate in jailbreaking GPT-4o(29 May 2025 release)
- Abstract(参考訳): 大規模言語モデル(LLMs)に対する敵対的な攻撃は、AIセキュリティにおいて重要な課題として浮上した。
これらの攻撃は、LLMの理解能力に固有の弱点を活用することで、LLMの信頼性を損なう。
本稿では,異なるLLMが提示する多様な理解レベルに特化しているジェイルブレイク戦略の有効性について検討する。
本稿では,LLMを意味的理解能力に応じてタイプIとタイプIIに分類する新しいフレームワークである,大規模言語モデルの意味的理解能力に基づく適応的ジェイルブレイク戦略を提案する。
各カテゴリに対して、攻撃を成功させるために脆弱性を活用することを目的とした、パーソナライズされたジェイルブレイク戦略を設計する。
複数のLSMに対して行った大規模な実験により、我々の適応戦略が脱獄の成功率を著しく向上させることが示された。
特に,GPT-4o(2025年5月29日リリース)の脱獄率は98.9%である。
関連論文リスト
- ICLShield: Exploring and Mitigating In-Context Learning Backdoor Attacks [61.06621533874629]
In-context Learning (ICL)は、大規模言語モデル(LLM)において顕著な成功を収めた。
本稿では,LLMがタスク関連潜伏概念とバックドア関連潜伏概念の両方を同時に学習する,という二重学習仮説を初めて提案する。
そこで本研究では,概念選好比を動的に調整する防衛機構であるICLShieldを提案する。
論文 参考訳(メタデータ) (2025-07-02T03:09:20Z) - MetaCipher: A General and Extensible Reinforcement Learning Framework for Obfuscation-Based Jailbreak Attacks on Black-Box LLMs [14.530593083777502]
難読化による脱獄攻撃は依然として有効である。
我々は,新しい難読化ベースの脱獄フレームワークである textbfMetaCipher を提案する。
わずか10クエリで、MetaCipherは92%以上のアタック成功率を達成した。
論文 参考訳(メタデータ) (2025-06-27T18:15:56Z) - Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Efficient and Stealthy Jailbreak Attacks via Adversarial Prompt Distillation from LLMs to SLMs [15.640342726041732]
ジェイルブレイクシナリオにおける大規模言語モデル(LLM)に対する攻撃は多くのセキュリティと倫理上の問題を引き起こす。
現在のジェイルブレイク攻撃法は、低効率、高い計算コスト、低いクロスモデル適応性といった問題に直面している。
本研究は, マスク付き言語モデリング, 強化学習, 動的温度制御を組み合わせた適応型プロンプト蒸留法を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:27:51Z) - A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。
大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文 参考訳(メタデータ) (2025-04-07T12:05:16Z) - LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution [84.2846064139183]
大規模言語モデル(LLM)は、脱獄プロンプトからの脅威に直面している。
ホワイトボックスモデルを対象とした軽量防衛機構であるLightDefenseを提案する。
論文 参考訳(メタデータ) (2025-04-02T09:21:26Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - LLM-Virus: Evolutionary Jailbreak Attack on Large Language Models [59.29840790102413]
既存のジェイルブレイク攻撃は主に不透明な最適化手法と勾配探索法に基づいている。
進化的ジェイルブレイクと呼ばれる進化的アルゴリズムに基づくジェイルブレイク攻撃手法であるLSM-Virusを提案する。
この結果から, LLM-Virus は既存の攻撃手法と比較して, 競争力や性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-28T07:48:57Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [55.253208152184065]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - Diversity Helps Jailbreak Large Language Models [18.526179926795834]
私たちは、大きな言語モデルが以前のコンテキストから逸脱する能力を活用する強力なjailbreakテクニックを発見しました。
提案手法は既存のアプローチを劇的に上回り,最大62.83%の成功率でトップ10のチャットボットを妥協することに成功した。
この啓示は、現在のLLM安全性トレーニングにおいて重大な欠陥を露呈しており、既存の手法は脆弱性を取り除くのではなく、単に脆弱性を隠蔽するものであることを示唆している。
論文 参考訳(メタデータ) (2024-11-06T19:39:48Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Lockpicking LLMs: A Logit-Based Jailbreak Using Token-level Manipulation [15.928341917085467]
JailMineは、大規模な言語モデルから悪意ある応答を引き出すために、自動化された"マイニング"プロセスを採用している。
JailMineの有効性と効率を実証し、使用時間の86%の大幅な削減を実現した。
論文 参考訳(メタデータ) (2024-05-20T17:17:55Z) - TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。
本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。
本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文 参考訳(メタデータ) (2024-04-30T14:43:57Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - JailGuard: A Universal Detection Framework for LLM Prompt-based Attacks [34.95274579737075]
JailGuardは、テキストおよび画像モダリティ間のプロンプトベースの攻撃を普遍的に検出するフレームワークである。
攻撃は本来、良心的な攻撃よりも頑丈ではないという原則に基づいて行われる。
テキストと画像の入力で86.14%/82.90%の最高の検出精度を達成し、最先端の手法を11.81%-25.73%、12.20%-21.40%向上させた。
論文 参考訳(メタデータ) (2023-12-17T17:02:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。