Fugu-MT 論文翻訳(概要): Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

論文の概要: Analysis of LLMs Against Prompt Injection and Jailbreak Attacks

arxiv url: http://arxiv.org/abs/2602.22242v1
Date: Tue, 24 Feb 2026 12:32:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.319644
Title: Analysis of LLMs Against Prompt Injection and Jailbreak Attacks
Title（参考訳）: プロンプトインジェクションおよびジェイルブレイク攻撃に対するLDMの解析
Authors: Piyush Jaiswal, Aaditya Pratap, Shreyansh Saraswati, Harsh Kasyap, Somanath Tripathy,
Abstract要約: この研究は、大規模な手動でキュレートされたデータセットを使用して、プロンプトインジェクションとジェイルブレイクの脆弱性を評価する。内部安全機構によって引き起こされる、拒絶応答や完全な無声応答を含むモデル間での行動変化を観察する。
参考スコア（独自算出の注目度）: 7.685814179879813
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are widely deployed in real-world systems. Given their broader applicability, prompt engineering has become an efficient tool for resource-scarce organizations to adopt LLMs for their own purposes. At the same time, LLMs are vulnerable to prompt-based attacks. Thus, analyzing this risk has become a critical security requirement. This work evaluates prompt-injection and jailbreak vulnerability using a large, manually curated dataset across multiple open-source LLMs, including Phi, Mistral, DeepSeek-R1, Llama 3.2, Qwen, and Gemma variants. We observe significant behavioural variation across models, including refusal responses and complete silent non-responsiveness triggered by internal safety mechanisms. Furthermore, we evaluated several lightweight, inference-time defence mechanisms that operate as filters without any retraining or GPU-intensive fine-tuning. Although these defences mitigate straightforward attacks, they are consistently bypassed by long, reasoning-heavy prompts.
Abstract（参考訳）: 大規模言語モデル(LLM)は現実世界のシステムに広くデプロイされている。より広範な適用性を考えると、プロンプトエンジニアリングは、リソース不足の組織が独自の目的のためにLLMを採用するための効率的なツールになっている。同時に、LSMはプロンプトベースの攻撃に対して脆弱である。したがって、このリスクを分析することは重要なセキュリティ要件となっている。この研究は、Phi、Mistral、DeepSeek-R1、Llama 3.2、Qwen、Gemmaなど、複数のオープンソース LLM にまたがる大規模な手作業によるデータセットを使用して、迅速なインジェクションとジェイルブレイクの脆弱性を評価する。内部安全機構によって引き起こされる、拒絶応答や完全な無声応答を含むモデル間での行動変化を観察する。さらに、リトレーニングやGPU集約的な微調整を行わずにフィルタとして動作する軽量な推論時防御機構を評価した。これらの防御は直接的な攻撃を緩和するが、長く理性に富んだプロンプトによって一貫して回避される。

関連論文リスト

PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文参考訳（メタデータ） (2025-11-20T10:25:45Z)
Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文参考訳（メタデータ） (2025-11-01T13:44:42Z)
AutoAdv: Automated Adversarial Prompting for Multi-Turn Jailbreaking of Large Language Models [0.0]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃の脆弱性を示し続けている。本稿では,敵対的即時生成を自動化する新しいフレームワークであるAutoAdvを紹介する。我々の攻撃は、有害なコンテンツ生成に対して最大86%のジェイルブレイク成功率を達成したことを示す。
論文参考訳（メタデータ） (2025-04-18T08:38:56Z)
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文参考訳（メタデータ） (2025-02-12T17:19:36Z)
Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。 LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文参考訳（メタデータ） (2024-05-30T14:40:35Z)
Defending Large Language Models Against Jailbreak Attacks via Layer-specific Editing [14.094372002702476]
大規模言語モデル(LLM)は、広範囲の現実世界のアプリケーションで採用されつつある。近年の研究では、LSMは故意に構築された敵のプロンプトに弱いことが示されている。そこで本研究では,新しい防衛手法である textbfLayer-specific textbfEditing (LED) を提案する。
論文参考訳（メタデータ） (2024-05-28T13:26:12Z)
Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。 7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文参考訳（メタデータ） (2024-04-24T23:39:58Z)
CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。 LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文参考訳（メタデータ） (2024-04-19T20:11:12Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文参考訳（メタデータ） (2023-02-23T17:14:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。