Fugu-MT 論文翻訳(概要): Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent

論文の概要: Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent

arxiv url: http://arxiv.org/abs/2405.03654v1
Date: Mon, 6 May 2024 17:26:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 12:57:40.734066
Title: Can LLMs Deeply Detect Complex Malicious Queries? A Framework for Jailbreaking via Obfuscating Intent
Title（参考訳）: LLMは複雑な悪意のあるクエリを深く検出できるか? 難読化インテントによる脱獄フレームワーク
Authors: Shang Shang, Xinqiang Zhao, Zhongjiang Yao, Yepeng Yao, Liya Su, Zijing Fan, Xiaodan Zhang, Zhengwei Jiang,
Abstract要約: IntentObfuscatorという新しいブラックボックスジェイルブレイク攻撃手法を導入する。本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど,複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。私たちは、グラフィック暴力、人種差別、性差別、政治的敏感さ、サイバーセキュリティの脅威、犯罪スキルなど、さまざまな種類のセンシティブなコンテンツに検証を拡張します。
参考スコア（独自算出の注目度）: 3.380948804946178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: To demonstrate and address the underlying maliciousness, we propose a theoretical hypothesis and analytical approach, and introduce a new black-box jailbreak attack methodology named IntentObfuscator, exploiting this identified flaw by obfuscating the true intentions behind user prompts.This approach compels LLMs to inadvertently generate restricted content, bypassing their built-in content security measures. We detail two implementations under this framework: "Obscure Intention" and "Create Ambiguity", which manipulate query complexity and ambiguity to evade malicious intent detection effectively. We empirically validate the effectiveness of the IntentObfuscator method across several models, including ChatGPT-3.5, ChatGPT-4, Qwen and Baichuan, achieving an average jailbreak success rate of 69.21\%. Notably, our tests on ChatGPT-3.5, which claims 100 million weekly active users, achieved a remarkable success rate of 83.65\%. We also extend our validation to diverse types of sensitive content like graphic violence, racism, sexism, political sensitivity, cybersecurity threats, and criminal skills, further proving the substantial impact of our findings on enhancing 'Red Team' strategies against LLM content security frameworks.
Abstract（参考訳）: そこで,本研究では,ユーザプロンプトの背後にある真の意図を隠蔽して,その脆弱性を悪用するブラックボックス・ジェイルブレイク攻撃手法IntentObfuscatorを提案する。このフレームワークでは、クエリの複雑さとあいまいさを操り、悪意のある意図の検出を効果的に回避する「Obscure Intention」と「Create Ambiguity」の2つの実装を詳述する。本稿では,ChatGPT-3.5,ChatGPT-4,Qwen,Baichuanなど複数のモデルを対象としたIntentObfuscator法の有効性を実証的に検証した。特に、週に1億人のアクティブユーザーを抱えるChatGPT-3.5での我々のテストは、83.65\%という驚くべき成功率を達成した。私たちはまた、グラフィック暴力、人種差別、性差別、政治的感受性、サイバーセキュリティの脅威、犯罪スキルといった様々なタイプの機密コンテンツにも検証を拡大し、LLMコンテンツセキュリティフレームワークに対する「レッドチーム」戦略の強化に対する我々の発見の実質的な影響を証明しました。

関連論文リスト

Behind the Mask: Benchmarking Camouflaged Jailbreaks in Large Language Models [0.0]
カモフラージュされたジェイルブレイクは明らかに良心的な言語の中に悪意のある意図を埋め込んで既存の安全メカニズムを回避している本稿では, 従来のキーワードベース検出手法の誤り特性と限界に着目し, カモフラージュされたジェイルブレイクプロンプトの構築と影響について検討する。
論文参考訳（メタデータ） (2025-09-05T19:57:38Z)
LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。 M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文参考訳（メタデータ） (2025-06-09T12:02:39Z)
Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [18.37303422539757]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。 IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文参考訳（メタデータ） (2025-05-24T06:47:32Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文参考訳（メタデータ） (2025-01-05T19:06:03Z)
Token Highlighter: Inspecting and Mitigating Jailbreak Prompts for Large Language Models [61.916827858666906]
大規模言語モデル(LLM)は、ユーザクエリに対する応答を提供するために、ChatGPTなどのサービスに統合されつつある。本稿では,Token Highlighterという手法を提案する。
論文参考訳（メタデータ） (2024-12-24T05:10:02Z)
Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文参考訳（メタデータ） (2024-12-22T14:18:39Z)
Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。 LLMは脱獄攻撃に弱いため、有害な反応が生じる。我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文参考訳（メタデータ） (2024-10-15T10:07:15Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文参考訳（メタデータ） (2024-10-03T19:07:53Z)
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking [30.67803190789498]
我々は,害の防止という目的の下に悪意のある意図を隠蔽し,マルチターンシナリオを構築する新しいジェイルブレイク手法RED QUEEN ATTACKを提案する。我々の実験によると、全てのLLMはRED QUEEN ATTACKに対して脆弱であり、GPT-4oで87.62%、Llama3-70Bで75.4%に達する。安全を優先するために, RED QUEEN GUARDと呼ばれる簡単な緩和戦略を導入する。
論文参考訳（メタデータ） (2024-09-26T01:24:17Z)
Virtual Context: Enhancing Jailbreak Attacks with Special Token Injection [54.05862550647966]
本稿では、以前LLMセキュリティで見過ごされていた特別なトークンを活用して、ジェイルブレイク攻撃を改善する仮想コンテキストを提案する。総合的な評価によると、仮想コンテキストによるジェイルブレイク攻撃は、4つの広く使われているジェイルブレイク手法の成功率を約40%向上させることができる。
論文参考訳（メタデータ） (2024-06-28T11:35:54Z)
WordGame: Efficient & Effective LLM Jailbreak via Simultaneous Obfuscation in Query and Response [23.344727384686898]
我々は、現在の安全アライメントの共通パターンを分析し、クエリとレスポンスの同時難読化により、これらのパターンをジェイルブレイク攻撃に活用可能であることを示す。具体的には、悪意のある単語をワードゲームに置き換えて、クエリの敵意を分解するWordGame攻撃を提案する。
論文参考訳（メタデータ） (2024-05-22T21:59:22Z)
CodeChameleon: Personalized Encryption Framework for Jailbreaking Large Language Models [49.60006012946767]
パーソナライズされた暗号化手法に基づく新しいジェイルブレイクフレームワークであるCodeChameleonを提案する。我々は、7つの大規模言語モデルに関する広範な実験を行い、最先端の平均アタック成功率(ASR)を達成する。 GPT-4-1106上で86.6%のASRを実現する。
論文参考訳（メタデータ） (2024-02-26T16:35:59Z)
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding [35.750885132167504]
我々は,大規模言語モデル(LLM)の安全性を意識したデコーディング戦略であるSafeDecodingを導入し,ユーザクエリに対する有用かつ無害な応答を生成する。この結果から,SafeDecodingは,ユーザクエリに対する応答の利便性を損なうことなく,攻撃成功率やジェイルブレイク攻撃の有害性を著しく低下させることがわかった。
論文参考訳（メタデータ） (2024-02-14T06:54:31Z)
All in How You Ask for It: Simple Black-Box Method for Jailbreak Attacks [0.0]
本研究では,ジェイルブレイクプロンプトを効率的に作成するための簡単なブラックボックス手法を提案する。本手法は有害なプロンプトを目的のLSMを直接利用した良性表現に反復的に変換する。提案手法は, 平均5回の質問に対して, 80%以上の攻撃成功率を達成した。
論文参考訳（メタデータ） (2024-01-18T08:36:54Z)
Cognitive Overload: Jailbreaking Large Language Models with Overloaded Logical Thinking [60.78524314357671]
本研究では,大規模言語モデル(LLM)の認知的構造とプロセスをターゲットにした新しいジェイルブレイク攻撃のカテゴリについて検討する。提案する認知的オーバーロードはブラックボックス攻撃であり、モデルアーキテクチャやモデルウェイトへのアクセスの知識は不要である。 AdvBenchとMasterKeyで実施された実験では、人気のあるオープンソースモデルであるLlama 2とプロプライエタリモデルであるChatGPTの両方を含む様々なLLMが、認知的オーバーロードによって妥協可能であることが明らかになった。
論文参考訳（メタデータ） (2023-11-16T11:52:22Z)
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文参考訳（メタデータ） (2023-10-05T17:01:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。