論文の概要: InfoFlood: Jailbreaking Large Language Models with Information Overload
- arxiv url: http://arxiv.org/abs/2506.12274v1
- Date: Fri, 13 Jun 2025 23:03:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.682636
- Title: InfoFlood: Jailbreaking Large Language Models with Information Overload
- Title(参考訳): InfoFlood: 情報オーバーロードによる大規模言語モデルのジェイルブレーク
- Authors: Advait Yadav, Haibo Jin, Man Luo, Jun Zhuang, Haohan Wang,
- Abstract要約: 過度の言語的複雑さが組込み安全性メカニズムを阻害する新たな脆弱性を同定する。
我々は、悪意のあるクエリを複雑な情報過剰なクエリに変換するジェイルブレイク攻撃であるInfoFloodを提案する。
広く使用されている4つのLLM-GPT-4o, GPT-3.5-turbo, Gemini 2.0, LLaMA 3.1に対するInfoFloodの有効性を実証的に検証した。
- 参考スコア(独自算出の注目度): 16.626185161464164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities across various domains. However, their potential to generate harmful responses has raised significant societal and regulatory concerns, especially when manipulated by adversarial techniques known as "jailbreak" attacks. Existing jailbreak methods typically involve appending carefully crafted prefixes or suffixes to malicious prompts in order to bypass the built-in safety mechanisms of these models. In this work, we identify a new vulnerability in which excessive linguistic complexity can disrupt built-in safety mechanisms-without the need for any added prefixes or suffixes-allowing attackers to elicit harmful outputs directly. We refer to this phenomenon as Information Overload. To automatically exploit this vulnerability, we propose InfoFlood, a jailbreak attack that transforms malicious queries into complex, information-overloaded queries capable of bypassing built-in safety mechanisms. Specifically, InfoFlood: (1) uses linguistic transformations to rephrase malicious queries, (2) identifies the root cause of failure when an attempt is unsuccessful, and (3) refines the prompt's linguistic structure to address the failure while preserving its malicious intent. We empirically validate the effectiveness of InfoFlood on four widely used LLMs-GPT-4o, GPT-3.5-turbo, Gemini 2.0, and LLaMA 3.1-by measuring their jailbreak success rates. InfoFlood consistently outperforms baseline attacks, achieving up to 3 times higher success rates across multiple jailbreak benchmarks. Furthermore, we demonstrate that commonly adopted post-processing defenses, including OpenAI's Moderation API, Perspective API, and SmoothLLM, fail to mitigate these attacks. This highlights a critical weakness in traditional AI safety guardrails when confronted with information overload-based jailbreaks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示している。
しかし、有害な反応を引き起こす可能性には、特に「ジェイルブレイク」攻撃として知られる敵の手法によって操作された場合、社会的および規制上の重大な懸念が持ち上がっている。
既存のjailbreakメソッドでは、これらのモデルのビルトインの安全性メカニズムを回避するために、慎重に作られたプレフィックスや接尾辞を悪意のあるプロンプトに追加するのが一般的である。
本研究では,過剰な言語的複雑さが組み込まれた安全メカニズムを阻害する新たな脆弱性を,有害な出力を直接引き出すために,追加のプレフィックスや接尾辞を許容する攻撃者を必要としないように同定する。
この現象をインフォメーション・オーバーロードと呼ぶ。
この脆弱性を自動で悪用するため,我々は,悪意のあるクエリを,ビルトインの安全性機構をバイパス可能な複雑な情報過負荷クエリに変換するJailbreak攻撃であるInfoFloodを提案する。
具体的には,(1) 悪意のあるクエリを言い換えるために言語変換を使用し,(2) 試みが失敗した場合の失敗の根本原因を特定し,(3) 悪意のある意図を維持しながら,その失敗に対応するためにプロンプトの言語構造を洗練させる。
GPT-3.5-turbo, Gemini 2.0, LLaMA 3.1-の4つの広く使われているLLMs-GPT-4o, GPT-3.5-turboに対するInfoFloodの有効性をジェイルブレイク成功率を用いて実証的に検証した。
InfoFloodはベースライン攻撃を一貫して上回り、複数のJailbreakベンチマークで最大3倍の成功率を達成した。
さらに,OpenAIのModerration API, Perspective API, SmoothLLMなど,一般的に採用されている後処理ディフェンスが,これらの攻撃を緩和することができないことを示す。
これは、情報過負荷ベースのジェイルブレイクに直面した場合、従来のAI安全ガードレールの重大な弱点を浮き彫りにする。
関連論文リスト
- Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - h4rm3l: A language for Composable Jailbreak Attack Synthesis [48.5611060845958]
h4rm3lは、人間が読めるドメイン固有言語とのギャップに対処する新しいアプローチである。
我々は、h4rm3lの合成攻撃は、文献における既存のジェイルブレイク攻撃よりも多様で、より成功していることを示す。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Poisoned LangChain: Jailbreak LLMs by LangChain [9.658883589561915]
本稿では,間接的ジェイルブレイクの概念を提案し,LangChain経由でRetrieval-Augmented Generationを実現する。
我々はこの手法を,ジェイルブレイク問題の3つの主要なカテゴリにわたる6つの大言語モデルで検証した。
論文 参考訳(メタデータ) (2024-06-26T07:21:02Z) - Knowledge-to-Jailbreak: Investigating Knowledge-driven Jailbreaking Attacks for Large Language Models [86.6931690001357]
knowledge-to-jailbreakは、ドメイン知識からジェイルブレイク攻撃を生成することを目的としている。
12,974組の知識ジェイルブレイクペアで大規模なデータセットを収集します。
実験によると、ジェイルブレイク発生器は、人間の専門家が作り上げたものと同等の有害なジェイルブレイクを発生させることができる。
論文 参考訳(メタデータ) (2024-06-17T15:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。