論文の概要: Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack
- arxiv url: http://arxiv.org/abs/2511.00556v1
- Date: Sat, 01 Nov 2025 13:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.842914
- Title: Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack
- Title(参考訳): LLMの安全心は、過激なシフトアタックによって揺さぶられるか
- Authors: Peng Ding, Jun Kuang, Wen Sun, Zongyu Wang, Xuezhi Cao, Xunliang Cai, Jiajun Chen, Shujian Huang,
- Abstract要約: 大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
- 参考スコア(独自算出の注目度): 53.34204977366491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) remain vulnerable to jailbreaking attacks despite their impressive capabilities. Investigating these weaknesses is crucial for robust safety mechanisms. Existing attacks primarily distract LLMs by introducing additional context or adversarial tokens, leaving the core harmful intent unchanged. In this paper, we introduce ISA (Intent Shift Attack), which obfuscates LLMs about the intent of the attacks. More specifically, we establish a taxonomy of intent transformations and leverage them to generate attacks that may be misperceived by LLMs as benign requests for information. Unlike prior methods relying on complex tokens or lengthy context, our approach only needs minimal edits to the original request, and yields natural, human-readable, and seemingly harmless prompts. Extensive experiments on both open-source and commercial LLMs show that ISA achieves over 70% improvement in attack success rate compared to direct harmful prompts. More critically, fine-tuning models on only benign data reformulated with ISA templates elevates success rates to nearly 100%. For defense, we evaluate existing methods and demonstrate their inadequacy against ISA, while exploring both training-free and training-based mitigation strategies. Our findings reveal fundamental challenges in intent inference for LLMs safety and underscore the need for more effective defenses. Our code and datasets are available at https://github.com/NJUNLP/ISA.
- Abstract(参考訳): 大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
これらの弱点を調査することは、堅牢な安全メカニズムにとって不可欠である。
既存の攻撃は主に、追加のコンテキストや敵トークンを導入することでLSMを邪魔し、コアとなる有害な意図は変わらないままである。
本稿では,攻撃意図について LLM を困惑させる ISA (Intent Shift Attack) を提案する。
より具体的には、意図変換の分類を確立し、それらを活用して、LLMが情報に対する良心的な要求と誤認識される可能性のある攻撃を生成する。
複雑なトークンや長いコンテキストに依存する従来の方法とは異なり、私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
オープンソースおよび商用LLMの広範な実験により、ISAは直接的な有害なプロンプトに比べて70%以上の攻撃成功率の向上を達成している。
より重要なことは、ISAテンプレートで再構成された良質なデータのみの微調整モデルは、成功率を100%近く向上させる。
防衛のために,既存の手法を評価し,ISAに対する不適切性を実証するとともに,トレーニングフリーとトレーニングベース緩和の両戦略を探求する。
本研究は, LLMの安全性に対する意図推論の根本的な課題を明らかにし, より効果的な防御の必要性を浮き彫りにしている。
私たちのコードとデータセットはhttps://github.com/NJUNLP/ISAで公開されています。
関連論文リスト
- Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Is Your Prompt Safe? Investigating Prompt Injection Attacks Against Open-Source LLMs [28.75283403986172]
大規模言語モデル(LLM)は、プロンプトベースの攻撃に対して脆弱であり、有害なコンテンツや機密情報を生成する。
本稿では,5 つの攻撃ベンチマークにおいて,$mathbf14$ のオープンソース LLM に対する効果的なインジェクション攻撃について検討する。
論文 参考訳(メタデータ) (2025-05-20T13:50:43Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - The Information Security Awareness of Large Language Models [13.977080888159627]
情報セキュリティ意識(ISA)は、大規模言語モデル(LLM)の重要かつ未解明の安全性の側面である。
本稿では,モバイルISA分類における30のセキュリティトピックすべてを対象として,LLMのISAを自動的に測定する手法を提案する。
人気モデルのほとんどが中~低レベルのISAしか表示せず、ユーザをサイバーセキュリティの脅威にさらしていることが分かりました。
論文 参考訳(メタデータ) (2024-11-20T11:09:55Z) - Uncovering Safety Risks of Large Language Models through Concept Activation Vector [13.804245297233454]
大規模言語モデル(LLM)に対する攻撃を誘導する安全概念活性化ベクトル(SCAV)フレームワークについて紹介する。
そこで我々は,攻撃プロンプトと埋め込みレベルの攻撃の両方を生成できるSCAV誘導攻撃法を開発した。
本手法は,トレーニングデータが少なくなるとともに,攻撃成功率と応答品質を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Hijacking Large Language Models via Adversarial In-Context Learning [10.416972293173993]
In-context Learning (ICL) は、ラベル付き例を事前条件付きプロンプトのデモ(デム)として活用することで、特定の下流タスクにLLMを活用する強力なパラダイムとして登場した。
既存の攻撃は検出しやすく、ユーザーの入力にトリガーを必要とするか、ICLに対する特異性を欠いている。
本研究は、ILCに対する新規なトランスファー可能なプロンプトインジェクション攻撃を導入し、LSMをハイジャックしてターゲット出力を生成したり、有害な応答を誘発する。
論文 参考訳(メタデータ) (2023-11-16T15:01:48Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。