論文の概要: Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning
- arxiv url: http://arxiv.org/abs/2601.04666v1
- Date: Thu, 08 Jan 2026 07:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.076017
- Title: Know Thy Enemy: Securing LLMs Against Prompt Injection via Diverse Data Synthesis and Instruction-Level Chain-of-Thought Learning
- Title(参考訳): Know Thy Enemy: 異なるデータ合成と命令レベル学習によるプロンプト注入に対するLLMの安全性
- Authors: Zhiyuan Chang, Mingyang Li, Yuekai Huang, Ziyou Jiang, Xiaojun Jia, Qian Xiong, Junjie Wang, Zhaoyang Li, Qing Wang,
- Abstract要約: 大規模言語モデル(LLM)統合アプリケーションはますます普及しているが、プロンプトインジェクション(PI)攻撃による重大なセキュリティ上の脆弱性に直面している。
InstruCoTは、多種多様な訓練データを合成し、微調整を指示レベルチェーンで行うPIディフェンスのモデル拡張手法である。
- 参考スコア(独自算出の注目度): 31.790490397086856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-integrated applications have become increasingly prevalent, yet face critical security vulnerabilities from prompt injection (PI) attacks. Defending against PI attacks faces two major issues: malicious instructions can be injected through diverse vectors, and injected instructions often lack clear semantic boundaries from the surrounding context, making them difficult to identify. To address these issues, we propose InstruCoT, a model enhancement method for PI defense that synthesizes diverse training data and employs instruction-level chain-of-thought fine-tuning, enabling LLMs to effectively identify and reject malicious instructions regardless of their source or position in the context. We evaluate InstruCoT across three critical dimensions: Behavior Deviation, Privacy Leakage, and Harmful Output. Experimental results across four LLMs demonstrate that InstruCoT significantly outperforms baselines in all dimensions while maintaining utility performance without degradation
- Abstract(参考訳): 大規模言語モデル(LLM)統合アプリケーションはますます普及しているが、プロンプトインジェクション(PI)攻撃による重大なセキュリティ上の脆弱性に直面している。
悪意のある命令は様々なベクトルを通して注入できるし、注入された命令は周囲のコンテキストから明確な意味境界を欠くことが多く、識別が困難である。
これらの問題に対処するために,多種多様な訓練データを合成し,命令レベルのチェーン・オブ・ファインタニングを利用するPIディフェンスのモデル拡張手法であるInstruCoTを提案する。
InstruCoTは、行動偏差、プライバシー漏洩、有害出力の3つの重要な側面で評価する。
4つのLCM実験結果から、InstruCoTは劣化のない実用性能を維持しつつ、全次元のベースラインを著しく上回ることを示した。
関連論文リスト
- Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Stepwise Reasoning Error Disruption Attack of LLMs [34.30455975290165]
既存の大規模言語モデル(LLM)に対する攻撃は、特定の設定や非受容性の欠如によって制限される。
本稿では,事前の推論ステップに誤りを微妙に注入し,そのモデルに誤りを生じさせるステップワイズ rEasoning Error Disruption (SEED) 攻撃を提案する。
論文 参考訳(メタデータ) (2024-12-16T16:20:41Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。