論文の概要: Securing Large Language Models (LLMs) from Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2512.01326v1
- Date: Mon, 01 Dec 2025 06:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.715015
- Title: Securing Large Language Models (LLMs) from Prompt Injection Attacks
- Title(参考訳): プロンプトインジェクション攻撃による大規模言語モデル(LLM)の確保
- Authors: Omar Farooq Khan Suri, John McCrae,
- Abstract要約: 大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、その柔軟性は、インジェクション攻撃を誘発する。
タスク固有の微調整アプローチであるJATMOを提案し、非命令型ベースモデルを訓練して1つの機能を実行する。
JATMO の HOUYI に対するロバスト性の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly being deployed in real-world applications, but their flexibility exposes them to prompt injection attacks. These attacks leverage the model's instruction-following ability to make it perform malicious tasks. Recent work has proposed JATMO, a task-specific fine-tuning approach that trains non-instruction-tuned base models to perform a single function, thereby reducing susceptibility to adversarial instructions. In this study, we evaluate the robustness of JATMO against HOUYI, a genetic attack framework that systematically mutates and optimizes adversarial prompts. We adapt HOUYI by introducing custom fitness scoring, modified mutation logic, and a new harness for local model testing, enabling a more accurate assessment of defense effectiveness. We fine-tuned LLaMA 2-7B, Qwen1.5-4B, and Qwen1.5-0.5B models under the JATMO methodology and compared them with a fine-tuned GPT-3.5-Turbo baseline. Results show that while JATMO reduces attack success rates relative to instruction-tuned models, it does not fully prevent injections; adversaries exploiting multilingual cues or code-related disruptors still bypass defenses. We also observe a trade-off between generation quality and injection vulnerability, suggesting that better task performance often correlates with increased susceptibility. Our results highlight both the promise and limitations of fine-tuning-based defenses and point toward the need for layered, adversarially informed mitigation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、その柔軟性は、インジェクション攻撃を誘発する。
これらの攻撃は、モデルが悪意のあるタスクを実行するための命令追従機能を利用する。
タスク固有の微調整手法であるJATMOを提案し、非命令型ベースモデルを訓練して単一の機能を実行することにより、逆命令に対する感受性を低下させる。
本研究では,敵対的プロンプトを系統的に変異・最適化する遺伝攻撃フレームワークHOUYIに対するJATMOのロバスト性を評価する。
我々は、カスタムフィットネススコア、修正された突然変異論理、およびローカルモデルテストのための新しいハーネスを導入し、より正確な防御効果の評価を可能にした。
JATMO法でLLaMA 2-7B, Qwen1.5-4B, Qwen1.5-0.5Bモデルを微調整し, GPT-3.5-Turboベースラインと比較した。
以上の結果から,JATMOは命令調整モデルと比較して攻撃成功率を低下させるが,インジェクションを完全には防止しない。
また、ジェネレーション品質とインジェクションの脆弱性のトレードオフも観察し、より良いタスクパフォーマンスが影響を受けやすいことがしばしば示唆される。
この結果は、微調整型防衛の約束と限界と、層状で対角的に情報を得た緩和戦略の必要性の両方を強調した。
関連論文リスト
- Explainer-guided Targeted Adversarial Attacks against Binary Code Similarity Detection Models [12.524811181751577]
我々は,BCSDモデルに対する敵攻撃に対する新たな最適化を提案する。
特に,攻撃目標は,モデル予測を特定の範囲に制限することである。
我々の攻撃は、モデル決定境界の解釈において、ブラックボックス、モデルに依存しない説明器の優れた能力を活用する。
論文 参考訳(メタデータ) (2025-06-05T08:29:19Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Prefix Guidance: A Steering Wheel for Large Language Models to Defend Against Jailbreak Attacks [27.11523234556414]
我々は,プリフィックスガイダンス(PG)という,プラグアンドプレイで容易に配置可能なジェイルブレイク防御フレームワークを提案する。
PGは、モデルの出力の最初の数個のトークンを直接設定することで、有害なプロンプトを特定するようモデルに誘導する。
3つのモデルと5つの攻撃方法におけるPGの有効性を実証する。
論文 参考訳(メタデータ) (2024-08-15T14:51:32Z) - Perturbation-Invariant Adversarial Training for Neural Ranking Models:
Improving the Effectiveness-Robustness Trade-Off [107.35833747750446]
正統な文書に不可避な摂動を加えることで 敵の例を作れます
この脆弱性は信頼性に関する重大な懸念を生じさせ、NRMの展開を妨げている。
本研究では,NRMにおける有効・損耗トレードオフに関する理論的保証を確立する。
論文 参考訳(メタデータ) (2023-12-16T05:38:39Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。