論文の概要: PRISM: Generation-Time Detection and Mitigation of Secret Leakage in Multi-Agent LLM Pipelines
- arxiv url: http://arxiv.org/abs/2605.10614v1
- Date: Mon, 11 May 2026 14:11:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.880777
- Title: PRISM: Generation-Time Detection and Mitigation of Secret Leakage in Multi-Agent LLM Pipelines
- Title(参考訳): PRISM:マルチエージェントLLMパイプラインにおけるシークレットリークの発生時間検出と軽減
- Authors: Riya Tapwal, Abhishek Kumar, Carsten Maple,
- Abstract要約: PRISMは,情報漏洩を発生時の逐次的リスク蓄積問題として扱うリアルタイムディフェンスである。
各復号ステップにおいて、PRISMは語彙的、構造的、情報理論的、行動的、文脈的特徴にまたがる16の信号を校正リスクスコアに結合する。
PRISMは精度が1.000、リコールが0.712でF1 = 0.832を達成する。
- 参考スコア(独自算出の注目度): 19.04544141221272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent LLM systems introduce a security risk in which sensitive information accessed by one agent can propagate through shared context and reappear in downstream outputs, even without explicit adversarial intent. We formalise this phenomenon as propagation amplification, where leakage risk increases across agent boundaries as sensitive content is repeatedly exposed to downstream generators. Existing defences, including prompt-based safeguards, static pattern matching, and LLM-as-judge filtering, are not designed for this setting: they either operate after generation, rely primarily on surface-form patterns, or add substantial latency without modelling the generation process itself. To resolve these issues, we propose PRISM, a real-time defence that treats credential leakage as a sequential risk accumulation problem during generation. At each decoding step, PRISM combines 16 signals spanning lexical, structural, information-theoretic, behavioural, and contextual features into a calibrated risk score, enabling per-token intervention through green, yellow, and red risk zones. Our central observation is that credential reproduction is often preceded by a measurable shift in generation dynamics, characterised by entropy collapse and increasing logit concentration. When combined with text-structural cues such as identifier-pattern detection, these temporal signals provide an early warning of leakage before a secret is fully reconstructed. Across a 2,000-task adversarial benchmark covering 13 attack categories and three pressure levels in a heterogeneous four-agent pipeline, PRISM achieves F1 = 0.832 with precision = 1.000 and recall = 0.712, while producing no observed leakage on our benchmark (0.0% task-level leak rate) and preserving output utility of 0.893. It substantially outperforms the strongest baseline, Span Tagger, which achieves F1 = 0.719 with a 15.0% task-level leak rate.
- Abstract(参考訳): マルチエージェントLLMシステムは、あるエージェントがアクセスした機密情報を共有コンテキストを通じて伝播し、明示的な敵意を伴わずに下流の出力に再出現するセキュリティリスクを導入する。
我々は,この現象を伝播増幅として定式化し,エージェント境界のリークリスクが増大する。
既存の防御、例えばプロンプトベースのセーフガード、静的パターンマッチング、LCM-as-judgeフィルタリングなどは、この設定のために設計されていない。
これらの課題を解決するために, クレデンシャルリークを生成時の逐次的リスク蓄積問題として扱うリアルタイムディフェンスであるPRISMを提案する。
各復号ステップにおいて、PRISMは、語彙的、構造的、情報理論的、行動的、文脈的特徴にまたがる16の信号を校正されたリスクスコアに組み合わせ、緑、黄、赤のリスクゾーンを通したトーケン毎の介入を可能にする。
我々の中心的な観察では、クレデンシャル再生はエントロピー崩壊とロジット濃度の増加によって特徴づけられる、世代動態の計測可能な変化に先行することが多い。
識別子パターン検出などのテキスト構造的手がかりと組み合わせると、これらの時間信号は秘密が完全に再構築される前に早期に漏れの警告を与える。
PRISMは、13の攻撃カテゴリと3つの圧力レベルをカバーする2000タスクの逆算ベンチマークにおいて、F1 = 0.832を精度1.000で達成し、リコール = 0.712をリコールすると同時に、我々のベンチマーク(0.0%タスクレベルのリークレート)のリークが発生しず、0.893の出力ユーティリティを保持する。
最強のベースラインであるSpan Taggerは15.0%のタスクレベルのリークレートでF1 = 0.719を達成している。
関連論文リスト
- SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement [12.69450437027072]
マルチオブジェクト最適化における仕様のドリフトは、連続する繰り返しに対してセキュリティを徐々に低下させます。
本稿では,セキュリティ制約を暗黙的なプロンプトから明示的な検証可能な制約に変換するSCAFFOLD-CEGISフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-09T15:54:18Z) - MI$^2$DAS: A Multi-Layer Intrusion Detection Framework with Incremental Learning for Securing Industrial IoT Networks [47.386868423451595]
MI$2$DASは、異常に基づく階層的なトラフィックプーリングとオープンセット認識を統合する多層侵入検知フレームワークである。
Edge-IIoTsetデータセットで実施された実験は、すべてのレイヤで強力なパフォーマンスを示している。
これらの結果は、IIoTセキュリティを強化するための効果的でスケーラブルで適応的なフレームワークとして、MI$2$DASを示している。
論文 参考訳(メタデータ) (2026-02-27T09:37:05Z) - ThreatFormer-IDS: Robust Transformer Intrusion Detection with Zero-Day Generalization and Explainable Attribution [0.0]
IoTおよび産業ネットワークの侵入検出には、進化するトラフィックと限定されたラベルの下で信頼性を維持しながら、低い偽陽性率で稀な攻撃を検出できるモデルが必要である。
本研究では,トランスフォーマーをベースとしたシーケンシャルモデリングフレームワークThreatFormer-IDSを提案する。
時系列評価を備えたToN IoTベンチマークでは、ThreatFormer-IDSがAUCROC 0.994、AUC-PR 0.956、Recall@1%FPR 0.910を達成した。
論文 参考訳(メタデータ) (2026-02-26T23:20:42Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - Kelp: A Streaming Safeguard for Large Models via Latent Dynamics-Guided Risk Detection [29.51645496888383]
Kelpは、LM生成パイプライン内でのストリーミングリスク検出を可能にする、新しいプラグインフレームワークである。
Kelpは、最先端のポストホックガードレールと以前のプラグインプローブを一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-09T14:42:50Z) - Federated Spatiotemporal Graph Learning for Passive Attack Detection in Smart Grids [2.721477719641864]
本稿では,時間的ウィンドウ上で物理層と行動指標を融合させて受動的攻撃を検出するグラフ中心型マルチモーダル検出器を提案する。
テスト精度は98.32%、シーケンス毎の93.35%を0.15% FPRで達成している。
論文 参考訳(メタデータ) (2025-09-29T08:52:30Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Towards Copyright Protection for Knowledge Bases of Retrieval-augmented Language Models via Reasoning [58.57194301645823]
大規模言語モデル(LLM)は、現実のパーソナライズされたアプリケーションにますます統合されている。
RAGで使用される知識基盤の貴重かつしばしばプロプライエタリな性質は、敵による不正使用のリスクをもたらす。
これらの知識基盤を保護するための透かし技術として一般化できる既存の方法は、一般的に毒やバックドア攻撃を含む。
我々は、無害な」知識基盤の著作権保護の名称を提案する。
論文 参考訳(メタデータ) (2025-02-10T09:15:56Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。