論文の概要: Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers
- arxiv url: http://arxiv.org/abs/2603.28013v2
- Date: Fri, 03 Apr 2026 17:43:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 12:42:34.077895
- Title: Kill-Chain Canaries: Stage-Level Tracking of Prompt Injection Across Attack Surfaces and Model Safety Tiers
- Title(参考訳): キラーチェインカナリア:攻撃面を横断するプロンプト噴射とモデル安全タイヤのステージレベル追跡
- Authors: Haochuan Kevin Wang,
- Abstract要約: そこで本研究では,5種類のLDM剤に対する即時注射攻撃のステージ分解分析を行った。
暗号カナリアトークン(SECRET-[A-F0-9]8)を4つのキルチェーンステージで追跡する。
我々の中心的な発見は、モデル安全性は、敵のコンテンツが見えるかどうかではなく、パイプラインのステージにまたがって伝播されるかどうかによって決定されるということである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a stage-decomposed analysis of prompt injection attacks against five frontier LLM agents. Prior work measures task-level attack success rate (ASR); we localize the pipeline stage at which each model's defense activates. We instrument every run with a cryptographic canary token (SECRET-[A-F0-9]{8}) tracked through four kill-chain stages -- Exposed, Persisted, Relayed, Executed -- across four attack surfaces and five defense conditions (764 total runs, 428 no-defense attacked). Our central finding is that model safety is determined not by whether adversarial content is seen, but by whether it is propagated across pipeline stages. Concretely: (1) in our evaluation, exposure is 100% for all five models -- the safety gap is entirely downstream; (2) Claude strips injections at write_memory summarization (0/164 ASR), while GPT-4o-mini propagates canaries without loss (53% ASR, 95% CI: 41--65%); (3) DeepSeek exhibits 0% ASR on memory surfaces and 100% ASR on tool-stream surfaces from the same model -- a complete reversal across injection channels; (4) all four active defense conditions (write_filter, pi_detector, spotlighting, and their combination) produce 100% ASR due to threat-model surface mismatch; (5) a Claude relay node decontaminates downstream agents -- 0/40 canaries survived into shared memory.
- Abstract(参考訳): そこで本研究では,5種類のLDM剤に対する即時注射攻撃のステージ分解分析を行った。
先行作業はタスクレベルの攻撃成功率(ASR)を測定し、各モデルの防御が活性化するパイプラインステージをローカライズする。
暗号カナリアトークン(SECRET-[A-F0-9]{8})を4つの攻撃面と5つの防御条件(合計764回、無防御攻撃428回)で追跡する。
我々の中心的な発見は、モデル安全性は、敵のコンテンツが見えるかどうかではなく、パイプラインのステージにまたがって伝播されるかどうかによって決定されるということである。
具体的には、(1) 評価では、安全性のギャップは全5モデルで100%であり、(2) write_Memory summarization(0/164 ASR)でのクロードストリップインジェクションは損失のないカナリアを伝播するが(53% ASR、95% CI: 41--65%)、(3) DeepSeekは、同じモデルからツールストリームサーフェスで0% ASR、100% ASRは、同じモデルからツールストリームサーフェスで100% ASRを示す。
関連論文リスト
- SafetyDrift: Predicting When AI Agents Cross the Line Before They Actually Do [0.0]
SafetyDriftモデルでは、安全軌道をマルコフ連鎖の吸収として扱う。
コミュニケーションタスクでは、軽度のリスク状態にまで達するエージェントは、5段階以内に安全を侵害する確率が85%である。
これらのモデル上に構築されたモニターは94.7%の違反を検知し、3.7ステップの事前警告を無視可能な計算コストで行う。
論文 参考訳(メタデータ) (2026-03-28T05:52:04Z) - VisualLeakBench: Auditing the Fragility of Large Vision-Language Models against PII Leakage and Social Engineering [14.756677328512907]
VisualLeakBenchは、OCRインジェクションとContextual PII Leakageに対してLVLMを監査するための評価スイートである。
8種類のPII型を持つ合成逆画像1,000枚を用いて,実世界の実画像50枚に検証を行った。
我々は、再現可能な堅牢性と、デプロイメント関連視覚言語システムの安全性評価のためのデータセットとコードをリリースする。
論文 参考訳(メタデータ) (2026-03-11T05:47:24Z) - Semantic Chameleon: Corpus-Dependent Poisoning Attacks and Defenses in RAG Systems [0.0]
Retrieval-Augmented Generation (RAG) システムは、大きな言語モデルを外部知識ソースで拡張する。
特に、敵は、悪意のある文書が推論時に優先的に検索されるように、毒検索コーパスを付与することができる。
本研究では,最近のRAGパイプラインに対するグラデーション誘導コーパス中毒攻撃について検討し,検索層防御の評価を行った。
論文 参考訳(メタデータ) (2026-03-10T23:15:13Z) - When World Models Dream Wrong: Physical-Conditioned Adversarial Attacks against World Models [54.08784776767683]
本稿では,物理条件を乱す最初のホワイトボックス世界モデルアタックであるPhysCond-WMA(PhysCond-WMA)を提案する。
PhysCond-WMAは知覚の忠実さを維持しながら意味、論理、決定レベルの歪みを引き起こす。
論文 参考訳(メタデータ) (2026-02-21T07:22:37Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - STACK: Adversarial Attacks on LLM Safeguard Pipelines [5.784929232265091]
Anthropicが最新のClaude 4 Opusモデルを1つの防衛パイプラインを使ってガードする。
Google DeepMindやOpenAIを含む他のフロンティア開発者は、近く同様の防御を展開すると約束している。
このギャップに対処するため、オープンソースのディフェンスパイプラインを開発し、再チーム化する。
論文 参考訳(メタデータ) (2025-06-30T17:21:08Z) - Evaluating the Robustness of the "Ensemble Everything Everywhere" Defense [90.7494670101357]
あらゆるものをアンサンブルすることは、敵の例に対する防御である。
この防御は敵の攻撃に対して堅牢ではないことを示す。
次に、標準的なアダプティブアタック技術を用いて、防御の堅牢な精度を低下させる。
論文 参考訳(メタデータ) (2024-11-22T10:17:32Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。