論文の概要: Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks
- arxiv url: http://arxiv.org/abs/2503.11517v1
- Date: Fri, 14 Mar 2025 15:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:55.298343
- Title: Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks
- Title(参考訳): AIマルチエージェントNLPフレームワークによるプロンプト注入検出と緩和
- Authors: Diego Gosmar, Deborah A. Dahl, Dario Gosmar,
- Abstract要約: 本稿では,プロンプトインジェクションの脆弱性に対処するためのマルチエージェントNLPフレームワークを提案する。
このフレームワークは、レスポンスの生成、アウトプットの衛生化、ポリシーコンプライアンスの実施のための特別なエージェントを編成する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Prompt injection constitutes a significant challenge for generative AI systems by inducing unintended outputs. We introduce a multi-agent NLP framework specifically designed to address prompt injection vulnerabilities through layered detection and enforcement mechanisms. The framework orchestrates specialized agents for generating responses, sanitizing outputs, and enforcing policy compliance. Evaluation on 500 engineered injection prompts demonstrates a marked reduction in injection success and policy breaches. Novel metrics, including Injection Success Rate (ISR), Policy Override Frequency (POF), Prompt Sanitization Rate (PSR), and Compliance Consistency Score (CCS), are proposed to derive a composite Total Injection Vulnerability Score (TIVS). The system utilizes the OVON (Open Voice Network) framework for inter-agent communication via structured JSON messages, extending a previously established multi-agent architecture from hallucination mitigation to address the unique challenges of prompt injection.
- Abstract(参考訳): プロンプト注入は意図しない出力を誘導することによって、生成AIシステムにとって重要な課題となっている。
層状検出と強制機構によるインジェクション脆弱性への対処を目的としたマルチエージェントNLPフレームワークを提案する。
このフレームワークは、レスポンスの生成、アウトプットの衛生化、ポリシーコンプライアンスの実施のための特別なエージェントを編成する。
500のエンジニアリングされたインジェクションプロンプトの評価は、インジェクションの成功とポリシー違反の顕著な減少を示している。
Inject Success Rate (ISR), Policy Override Frequency (POF), Prompt Sanitization Rate (PSR), Compliance Consistency Score (CCS) などの新しい指標が提案され, 複合型トータルインジェクション脆弱性スコア (TIVS) を導出する。
このシステムはOVON(Open Voice Network)フレームワークを使用して構造化JSONメッセージを介してエージェント間通信を行い、以前に確立されたマルチエージェントアーキテクチャを幻覚の緩和から拡張し、プロンプトインジェクションのユニークな課題に対処する。
関連論文リスト
- Prompt Inject Detection with Generative Explanation as an Investigative Tool [0.0]
大規模言語モデル(LLM)は、敵のプロンプトベースのインジェクションに対して脆弱である。
本研究では, LLMのテキスト生成機能を用いて, インジェクションの検出を行う。
論文 参考訳(メタデータ) (2025-02-16T06:16:00Z) - Hallucination Mitigation using Agentic AI Natural Language-Based Frameworks [0.0]
現在のジェネレーティブAIモデルにおいて、幻覚は依然として重要な課題である。
本研究では,複数の人工知能エージェントを編成することで幻覚を緩和する方法について検討する。
論文 参考訳(メタデータ) (2025-01-19T11:19:25Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Unlocking Potential Binders: Multimodal Pretraining DEL-Fusion for Denoising DNA-Encoded Libraries [51.72836644350993]
マルチモーダルプレトレーニング DEL-Fusion Model (MPDF)
我々は,異なる複合表現とそれらのテキスト記述の対比対象を適用した事前学習タスクを開発する。
本稿では, 原子, 分子, 分子レベルでの複合情報をアマルガメートする新しいDEL融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-07T17:32:21Z) - Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Signed-Prompt: A New Approach to Prevent Prompt Injection Attacks
Against LLM-Integrated Applications [0.0]
本稿では,早期のインジェクション攻撃に対する新しい解決策として,Signed-Prompt法を提案する。
この研究には、権限のあるユーザによるコマンドセグメント内の機密命令の署名が含まれており、LLMは信頼できる命令ソースを識別することができる。
実験はSigned-Prompt法の有効性を示し、様々な種類のプロンプトインジェクション攻撃に対してかなりの抵抗を示した。
論文 参考訳(メタデータ) (2024-01-15T11:44:18Z) - Formalizing and Benchmarking Prompt Injection Attacks and Defenses [59.57908526441172]
本稿では,迅速なインジェクション攻撃を形式化するフレームワークを提案する。
フレームワークに基づいて、既存のものを組み合わせることで、新たな攻撃を設計します。
我々の研究は、将来のプロンプトインジェクション攻撃と防御を定量的に評価するための共通のベンチマークを提供する。
論文 参考訳(メタデータ) (2023-10-19T15:12:09Z) - Capturing Multi-Resolution Context by Dilated Self-Attention [58.69803243323346]
限定的自己意識と拡張メカニズムの組み合わせを提案し,これを拡張的自己意識と呼ぶ。
制限された自己注意は、高分解能でクエリの隣接するフレームに注意を払い、拡張メカニズムは、より低い解像度でそれに出席できるように遠方の情報を要約します。
ASRの結果は、制限された自己アテンションのみと比較して大幅に改善され、計算コストのごく一部をフルシーケンスベースの自己アテンションと比較すると、同様の結果が得られる。
論文 参考訳(メタデータ) (2021-04-07T02:04:18Z) - Selective and Features based Adversarial Example Detection [12.443388374869745]
Deep Neural Networks (DNN) を中継するセキュリティに敏感なアプリケーションは、Adversarial Examples (AE) を生成するために作られた小さな摂動に弱い。
本稿では,マルチタスク学習環境における選択的予測,モデルレイヤの出力処理,知識伝達概念を用いた教師なし検出機構を提案する。
実験の結果,提案手法は,ホワイトボックスシナリオにおけるテスト攻撃に対する最先端手法と同等の結果を得られ,ブラックボックスとグレーボックスシナリオの精度が向上した。
論文 参考訳(メタデータ) (2021-03-09T11:06:15Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z) - Adversarial Attack on Deep Product Quantization Network for Image
Retrieval [74.85736968193879]
近年,高速画像検索においてDPQN (Deep Product Quantization Network) が注目されている。
近年の研究では、ディープニューラルネットワーク(DNN)は、小さく、悪意のある設計の摂動によって入力に弱いことが示されている。
本稿では,製品量子化に基づく検索システムに対して,製品量子化逆生成(PQ-AG)を提案する。
論文 参考訳(メタデータ) (2020-02-26T09:25:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。