論文の概要: Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.01634v1
- Date: Mon, 03 Nov 2025 14:43:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.300041
- Title: Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models
- Title(参考訳): 新興脅威としてのプロンプトインジェクション--大規模言語モデルのレジリエンスを評価する
- Authors: Daniyal Ganiuly, Assel Smaiyl,
- Abstract要約: 本研究では,Large Language Models (LLM) のインジェクション攻撃に対する耐性を評価するための統一フレームワークを提案する。
このフレームワークは、堅牢性、安全性、セマンティック安定性を共同で測定するRDI(Resilience Degradation Index)、SCC(Safety Compliance Coefficient)、IIM(Constructal Integrity Metric)という3つの指標を定義している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in intelligent systems that perform reasoning, summarization, and code generation. Their ability to follow natural-language instructions, while powerful, also makes them vulnerable to a new class of attacks known as prompt injection. In these attacks, hidden or malicious instructions are inserted into user inputs or external content, causing the model to ignore its intended task or produce unsafe responses. This study proposes a unified framework for evaluating how resistant Large Language Models (LLMs) are to prompt injection attacks. The framework defines three complementary metrics such as the Resilience Degradation Index (RDI), Safety Compliance Coefficient (SCC), and Instructional Integrity Metric (IIM) to jointly measure robustness, safety, and semantic stability. We evaluated four instruction-tuned models (GPT-4, GPT-4o, LLaMA-3 8B Instruct, and Flan-T5-Large) on five common language tasks: question answering, summarization, translation, reasoning, and code generation. Results show that GPT-4 performs best overall, while open-weight models remain more vulnerable. The findings highlight that strong alignment and safety tuning are more important for resilience than model size alone. Results show that all models remain partially vulnerable, especially to indirect and direct-override attacks. GPT-4 achieved the best overall resilience (RDR = 9.8 %, SCR = 96.4 %), while open-source models exhibited higher performance degradation and lower safety scores. The findings demonstrate that alignment strength and safety tuning play a greater role in resilience than model size alone. The proposed framework offers a structured, reproducible approach for assessing model robustness and provides practical insights for improving LLM safety and reliability.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論、要約、コード生成を行うインテリジェントシステムにおいて、ますます使われている。
自然言語命令に従う能力は強力だが、プロンプトインジェクションと呼ばれる新しいタイプの攻撃に対して脆弱である。
これらの攻撃では、隠されたまたは悪意のある命令がユーザー入力または外部コンテンツに挿入され、モデルが意図したタスクを無視したり、安全でない応答を発生させる。
本研究では,Large Language Models (LLM) のインジェクション攻撃に対する耐性を評価するための統一フレームワークを提案する。
このフレームワークは、堅牢性、安全性、セマンティック安定性を共同で測定するために、Resilience Degradation Index(RDI)、Safety Compliance Coefficient(SCC)、Instructional Integrity Metric(IIM)という3つの補完的な指標を定義している。
GPT-4, GPT-4o, LLaMA-3 8B Instruct, Flan-T5-Large) を5つの共通言語タスク(質問応答, 要約, 翻訳, 推論, コード生成)で評価した。
その結果、GPT-4は全体として最高の性能を示し、オープンウェイトモデルはより脆弱なままである。
この結果は、モデルサイズ単独よりも、強いアライメントと安全性チューニングがレジリエンスにとって重要であることを浮き彫りにしている。
結果は、すべてのモデルが部分的に脆弱であり、特に間接的および直接オーバーライド攻撃であることを示している。
GPT-4は最高の総合レジリエンス(RDR=9.8%、SCR=96.4%)を達成し、オープンソースモデルは性能劣化と安全性の低下を示した。
その結果、アライメント強度と安全チューニングはモデルサイズ単独よりもレジリエンスにおいて大きな役割を果たすことが示された。
提案フレームワークは、モデルロバスト性を評価するための構造化された再現可能なアプローチを提供し、LCMの安全性と信頼性を改善するための実践的な洞察を提供する。
関連論文リスト
- When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Evaluating Robustness of Large Audio Language Models to Audio Injection: An Empirical Study [5.843063647136238]
本研究は4つの攻撃シナリオにまたがる5つのLALMを系統的に評価する。
単一のモデルはすべての攻撃タイプで他のモデルより一貫して優れています。
命令追従能力とロバスト性の間の負の相関は、命令に厳密に固執するモデルはより感受性が高いことを示唆している。
論文 参考訳(メタデータ) (2025-05-26T07:08:38Z) - Phare: A Safety Probe for Large Language Models [1.420401945390937]
大規模言語モデル(LLM)の探索と評価を行うための診断フレームワークであるPhoreを紹介する。
本評価では, 筋力, 敏感性, ステレオタイプ再現など, あらゆる安全次元にまたがる系統的脆弱性のパターンを明らかにする。
Phareは研究者や実践者に、より堅牢で整合性があり、信頼できる言語システムを構築するための実用的な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-16T15:31:08Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。