Fugu-MT 論文翻訳(概要): You Know What I'm Saying: Jailbreak Attack via Implicit Reference

論文の概要: You Know What I'm Saying: Jailbreak Attack via Implicit Reference

arxiv url: http://arxiv.org/abs/2410.03857v2
Date: Tue, 8 Oct 2024 08:34:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 15:50:43.455592
Title: You Know What I'm Saying: Jailbreak Attack via Implicit Reference
Title（参考訳）: 私が何を言っているのかわかる? 不正アクセスによるジェイルブレイク攻撃
Authors: Tianyu Wu, Lingrui Mei, Ruibin Yuan, Lujun Li, Wei Xue, Yike Guo,
Abstract要約: 本研究は、以前見過ごされた脆弱性を特定し、Implicit Reference (AIR) による攻撃(Attack)と呼ぶ。 AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。我々の実験は、AIRが最先端のLLMに対して有効であることを示し、ほとんどのモデルで90%を超える攻撃成功率(ASR)を達成した。
参考スコア（独自算出の注目度）: 22.520950422702757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While recent advancements in large language model (LLM) alignment have enabled the effective identification of malicious objectives involving scene nesting and keyword rewriting, our study reveals that these methods remain inadequate at detecting malicious objectives expressed through context within nested harmless objectives. This study identifies a previously overlooked vulnerability, which we term Attack via Implicit Reference (AIR). AIR decomposes a malicious objective into permissible objectives and links them through implicit references within the context. This method employs multiple related harmless objectives to generate malicious content without triggering refusal responses, thereby effectively bypassing existing detection techniques.Our experiments demonstrate AIR's effectiveness across state-of-the-art LLMs, achieving an attack success rate (ASR) exceeding 90% on most models, including GPT-4o, Claude-3.5-Sonnet, and Qwen-2-72B. Notably, we observe an inverse scaling phenomenon, where larger models are more vulnerable to this attack method. These findings underscore the urgent need for defense mechanisms capable of understanding and preventing contextual attacks. Furthermore, we introduce a cross-model attack strategy that leverages less secure models to generate malicious contexts, thereby further increasing the ASR when targeting other models.Our code and jailbreak artifacts can be found at https://github.com/Lucas-TY/llm_Implicit_reference.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) のアライメントの進歩により,シーンネストやキーワードの書き直しを含む悪意のある対象を効果的に識別できるようになっているが,これらの手法は,文脈によって表現される悪意のある対象を検出するのに不十分であることが明らかとなった。本研究では、以前見過ごされた脆弱性を特定し、Attack via Implicit Reference (AIR)と呼ぶ。 AIRは悪意のある目的を許容可能な目的に分解し、コンテキスト内の暗黙の参照を通してそれらをリンクする。本手法では, 拒絶応答を起こさずに悪意のあるコンテンツを生成するために, 既存の検出手法を効果的に回避し, 現状のLSMに対してAIRの有効性を実証し, GPT-4o, Claude-3.5-Sonnet, Qwen-2-72Bを含むほとんどのモデルにおいて, 攻撃成功率(ASR)を90%以上達成する。特に,この攻撃法に対して,より大きなモデルの方が脆弱である逆スケーリング現象を観察する。これらの知見は、文脈的攻撃を理解し予防できる防衛機構の緊急の必要性を浮き彫りにした。さらに、安全でないモデルを利用して悪意のあるコンテキストを生成するクロスモデルアタック戦略を導入し、それによって、他のモデルをターゲットにする際のASRをさらに高め、我々のコードやジェイルブレイクアーティファクトはhttps://github.com/Lucas-TY/llm_Implicit_referenceで見ることができる。

関連論文リスト

Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文参考訳（メタデータ） (2025-07-17T18:33:50Z)
Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
Mind the Gap: Detecting Black-box Adversarial Attacks in the Making through Query Update Analysis [3.795071937009966]
アドリアックは機械学習(ML)モデルの整合性を損なう可能性がある。本稿では,逆ノイズインスタンスが生成されているかどうかを検出するフレームワークを提案する。適応攻撃を含む8つの最先端攻撃に対するアプローチを評価する。
論文参考訳（メタデータ） (2025-03-04T20:25:12Z)
Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。 PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文参考訳（メタデータ） (2025-01-03T15:40:03Z)
Jailbreaking? One Step Is Enough! [6.142918017301964]
大規模言語モデル(LLM)は様々なタスクで優れるが、敵が有害な出力を生成するプロンプトを操作するジェイルブレイク攻撃に弱いままである。本稿では,攻撃意図を「防御」意図と偽装するリバース・エンベッドド・ディフェンス・アタック(REDA)機構を提案する。モデルの「防御的」意図における信頼性とガイダンスを高めるため、少数の攻撃例を含む文脈内学習(ICL)を採用する。
論文参考訳（メタデータ） (2024-12-17T07:33:41Z)
The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
本稿では,視覚大言語モデル (VLLM) がジェイルブレイク攻撃のリスクが高い理由を考察する。既存の防御機構は、テキストバウンド・プルーデンスの問題に悩まされる。ジェイルブレイクの2つの代表的な評価手法は、しばしばチャンス合意を示す。
論文参考訳（メタデータ） (2024-11-13T07:57:19Z)
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models [21.02295266675853]
我々は,新たなブラックボックスジェイルブレイク攻撃手法,Analyzing-based Jailbreak (ABJ)を提案する。 ABJは2つの独立した攻撃経路から構成され、モデルのマルチモーダル推論機能を利用して安全機構をバイパスする。我々の研究は、新しいタイプの安全リスクを明らかにし、モデルの推論プロセスにおける暗黙の脆弱性を軽減する緊急の必要性を強調します。
論文参考訳（メタデータ） (2024-07-23T06:14:41Z)
Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文参考訳（メタデータ） (2024-07-22T06:04:29Z)
MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文参考訳（メタデータ） (2024-06-13T15:55:04Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
Mitigating Label Flipping Attacks in Malicious URL Detectors Using Ensemble Trees [16.16333915007336]
悪意のあるURLは、交通、医療、エネルギー、銀行など、様々な産業で敵対的な機会を提供する。バックドア攻撃は、ラベルフリップ(LF)など、少数のトレーニングデータラベルを操作することで、良質なラベルを悪意のあるラベルに変更し、その逆を処理します。本稿では,有毒なラベルの存在を検知するアラームシステムと,オリジナルクラスラベルの発見を目的とした防御機構を提案する。
論文参考訳（メタデータ） (2024-03-05T14:21:57Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
Hijacking Large Language Models via Adversarial In-Context Learning [8.15194326639149]
In-context Learning (ICL)は、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。既存の攻撃は、検出しやすく、外部モデルに依存しているか、ICLに対する特異性を欠いている。この研究は、これらの問題に対処するために、新たなICLに対するトランスファー可能な攻撃を導入する。
論文参考訳（メタデータ） (2023-11-16T15:01:48Z)
Object-fabrication Targeted Attack for Object Detection [54.10697546734503]
物体検出の敵攻撃は標的攻撃と未標的攻撃を含む。新たなオブジェクトファブリケーションターゲット攻撃モードは、特定のターゲットラベルを持つ追加の偽オブジェクトをファブリケートする検出器を誤解させる可能性がある。
論文参考訳（メタデータ） (2022-12-13T08:42:39Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。