論文の概要: You Know What I'm Saying: Jailbreak Attack via Implicit Reference
- arxiv url: http://arxiv.org/abs/2410.03857v2
- Date: Tue, 8 Oct 2024 08:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:50:43.455592
- Title: You Know What I'm Saying: Jailbreak Attack via Implicit Reference
- Title(参考訳): 私が何を言っているのかわかる? 不正アクセスによるジェイルブレイク攻撃
- Authors: Tianyu Wu, Lingrui Mei, Ruibin Yuan, Lujun Li, Wei Xue, Yike Guo,
- Abstract要約: 本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
- 参考スコア(独自算出の注目度): 22.520950422702757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While recent advancements in large language model (LLM) alignment have enabled the effective identification of malicious objectives involving scene nesting and keyword rewriting, our study reveals that these methods remain inadequate at detecting malicious objectives expressed through context within nested harmless objectives. This study identifies a previously overlooked vulnerability, which we term Attack via Implicit Reference (AIR). AIR decomposes a malicious objective into permissible objectives and links them through implicit references within the context. This method employs multiple related harmless objectives to generate malicious content without triggering refusal responses, thereby effectively bypassing existing detection techniques.Our experiments demonstrate AIR's effectiveness across state-of-the-art LLMs, achieving an attack success rate (ASR) exceeding 90% on most models, including GPT-4o, Claude-3.5-Sonnet, and Qwen-2-72B. Notably, we observe an inverse scaling phenomenon, where larger models are more vulnerable to this attack method. These findings underscore the urgent need for defense mechanisms capable of understanding and preventing contextual attacks. Furthermore, we introduce a cross-model attack strategy that leverages less secure models to generate malicious contexts, thereby further increasing the ASR when targeting other models.Our code and jailbreak artifacts can be found at https://github.com/Lucas-TY/llm_Implicit_reference.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) のアライメントの進歩により,シーンネストやキーワードの書き直しを含む悪意のある対象を効果的に識別できるようになっているが,これらの手法は,文脈によって表現される悪意のある対象を検出するのに不十分であることが明らかとなった。
本研究では、以前見過ごされた脆弱性を特定し、Attack via Implicit Reference (AIR)と呼ぶ。
AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。
本手法では, 拒絶応答を起こさずに悪意のあるコンテンツを生成するために, 既存の検出手法を効果的に回避し, 現状のLSMに対してAIRの有効性を実証し, GPT-4o, Claude-3.5-Sonnet, Qwen-2-72Bを含むほとんどのモデルにおいて, 攻撃成功率(ASR)を90%以上達成する。
特に,この攻撃法に対して,より大きなモデルの方が脆弱である逆スケーリング現象を観察する。
これらの知見は、文脈的攻撃を理解し予防できる防衛機構の緊急の必要性を浮き彫りにした。
さらに、安全でないモデルを利用して悪意のあるコンテキストを生成するクロスモデルアタック戦略を導入し、それによって、他のモデルをターゲットにする際のASRをさらに高め、我々のコードやジェイルブレイクアーティファクトはhttps://github.com/Lucas-TY/llm_Implicit_referenceで見ることができる。
関連論文リスト
- Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。
本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。
モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文 参考訳(メタデータ) (2024-12-17T07:33:41Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。
既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。
ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Mitigating Label Flipping Attacks in Malicious URL Detectors Using
Ensemble Trees [16.16333915007336]
悪意のあるURLは、交通、医療、エネルギー、銀行など、様々な産業で敵対的な機会を提供する。
バックドア攻撃は、ラベルフリップ(LF)など、少数のトレーニングデータラベルを操作することで、良質なラベルを悪意のあるラベルに変更し、その逆を処理します。
本稿では,有毒なラベルの存在を検知するアラームシステムと,オリジナルクラスラベルの発見を目的とした防御機構を提案する。
論文 参考訳(メタデータ) (2024-03-05T14:21:57Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。
この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は 標的攻撃と未標的攻撃を含む。
新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文 参考訳(メタデータ) (2022-12-13T08:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。