論文の概要: Strengthening Polymorphic Prompt Assembling: Dynamic Separator Generation Against Emerging Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2605.30534v1
- Date: Thu, 28 May 2026 20:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.212581
- Title: Strengthening Polymorphic Prompt Assembling: Dynamic Separator Generation Against Emerging Prompt Injection Attacks
- Title(参考訳): ポリモルフィックプロンプトアセンブラの強化:新興プロンプトインジェクション攻撃に対する動的セパレータ生成
- Authors: Nima Dorzhiev, Peng Liu,
- Abstract要約: PPA(Polymorphic Prompt Assembling)は、固定プールからセパレータペアをランダムに選択し、システム命令からユーザ入力を分離することにより、LPMエージェントをプロンプトインジェクションから防御する。
タイムスタンプ,セッション識別子,ナンスを鍵としたドメイン分離SHA-256ダイジェストを用いた動的リクエストごとのセパレータ生成を提案する。
各アセンブルプロンプトは、ユニークな暗号(BEGIN、END)カナリアペアを受け取り、単一の要求に対するリーク露出を制限する。
- 参考スコア(独自算出の注目度): 2.8988874060074163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Polymorphic Prompt Assembling (PPA) defends LLM agents against prompt injections by randomly selecting separator pairs from a fixed pool to isolate user input from system instructions. Although effective, static pool reuse exposes a blast-radius vulnerability: once a separator leaks, it can be exploited in future requests. We propose a dynamic per-request separator generation using domain-separated SHA-256 digests keyed on the timestamp, session identifier, and cryptographic nonce. Each assembled prompt receives a unique (BEGIN, END) canary pair, thereby limiting leakage exposure to a single request. We evaluated our extension against 16 injection payloads on Llama-3.3-70B-Instruct-Turbo, with cross-model validation on DeepSeek-V4-Flash model. Against the M1 obfuscation payload (leetspeak + urgency), the dynamic mode reduces the Attack Success Rate (ASR) from 0.88 to 0.38, yielding a statistically significant 2.3 x mitigation verified by non-overlapping 95% Wilson confidence intervals. Against format_breakout_salad, static separator leakage (leak_rate = 0.467) is eliminated entirely in the dynamic mode (0.000), confirming the blast-radius reduction in practice. The implementation requires no model fine-tuning, adds 2.7 microseconds prompt-assembly overhead per request, and is backward compatible with the existing PPA SDK.
- Abstract(参考訳): PPA(Polymorphic Prompt Assembling)は、固定プールからセパレータペアをランダムに選択し、システム命令からユーザ入力を分離することにより、LPMエージェントをプロンプトインジェクションから防御する。
有効ではあるが、静的プールの再利用はブラスト・ラディウスの脆弱性を露呈する。
タイムスタンプ,セッション識別子,暗号ナンスを鍵としたドメイン分離されたSHA-256ダイジェストを用いた動的リクエストごとのセパレータ生成を提案する。
各アセンブルプロンプトは、ユニークな(BEGIN、END)カナリアペアを受け取り、単一の要求に対するリーク露出を制限する。
我々は,Llama-3.3-70B-Instruct-Turboにおける16のインジェクションペイロードに対して,DeepSeek-V4-Flashモデルを用いたクロスモデル検証を行った。
M1の難読化ペイロード(緊急時+緊急時)に対して、ダイナミックモードはアタック成功率(ASR)を0.88から0.38に下げ、統計学的に有意な2.3x軽減を95%のウィルソン信頼区間で証明する。
format_breakout_saladに対して、静的セパレータリーク (leak_rate = 0.467) は動的モード (0.000) で完全に排除され、実際にブラスト・ラディウスの減少を確認する。
この実装ではモデル微調整が不要で、リクエスト毎に2.7マイクロ秒のオーバヘッドを追加し、既存のPPA SDKと後方互換性がある。
関連論文リスト
- Prefix-Adaptive Block Diffusion for Efficient Document Recognition [52.15352911463151]
ブロック拡散モデル(BDM)は並列生成、フレキシブルな出力、KVキャッシュをサポートし、効率的な文書解析を約束する。
本稿では,前置詞から接尾辞への因果表記に代えて,ブロック内双方向化を代替するPrefix-Block Diffusion Model (PA-BDM)を提案する。
実験の結果、3B PA-BDMはいくつかのベンチマークで高い認識スコアを達成し、2.5B MinerU-Diffusionに対して推論スループットを71.6%向上した。
論文 参考訳(メタデータ) (2026-05-16T07:50:13Z) - TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning [60.68349524623048]
分解されたジェイルブレイクは、大きな言語モデルにとって重大な脅威となる。
我々はステートフルなデュアルエンコーダ防御フレームワークであるTwinGateを紹介する。
我々は、8600の異なる悪意のある意図にまたがる360万以上の命令の包括的なデータセットを構築した。
論文 参考訳(メタデータ) (2026-04-30T13:44:01Z) - Agent Privilege Separation in OpenClaw: A Structural Defense Against Prompt Injection [0.0]
オープンソースマルチツールエージェントプラットフォームであるOpenClaw内で動作している現在の世代モデルに対して、Microsoft LLMail-Injectベンチマークを複製します。
提案する防御機構は,エージェント分離を特権分離した2エージェントパイプラインとして実装したツールパーティショニングと,アクションエージェントが処理する前にパーサシブフレーミングを除去する構造化された出力を生成するフォーマッティングの2つを組み合わせたものである。
論文 参考訳(メタデータ) (2026-03-13T02:03:00Z) - Repurposing Backdoors for Good: Ephemeral Intrinsic Proofs for Verifiable Aggregation in Cross-silo Federated Learning [30.440611659881494]
暗号証明からtextitIntrinsic Proofs へ移行する軽量アーキテクチャを提案する。
モデルパラメータに直接検証信号を埋め込むために、カタストロフィックフォーッティングを利用する。
我々の手法は、暗号ベースラインと比較して、ResNet-18で1000ドル以上のスピードアップを実現し、大規模モデルに効果的にスケールする。
論文 参考訳(メタデータ) (2026-03-11T12:04:18Z) - MulVul: Retrieval-augmented Multi-Agent Code Vulnerability Detection via Cross-Model Prompt Evolution [28.062506040151153]
大きな言語モデル(LLM)は、2つの重要な制限のため、現実世界の脆弱性検出を自動化するのに苦労している。
脆弱性パターンの不均一性は単一の統一モデルの有効性を損なう。
textbfMulVulは,高精度かつ広範囲な脆弱性検出のための検索拡張型マルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2026-01-26T12:43:10Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - RoguePrompt: Dual-Layer Ciphering for Self-Reconstruction to Circumvent LLM Moderation [0.0]
本稿では,不正なユーザクエリを自己再構成プロンプトに変換する自動ジェイルブレイク攻撃を提案する。
GPT 4oに対してRoguePromptをインスタンス化し、2 448で評価すると、以前は強く拒否されていた生産モデレーションシステムであることが示唆される。
3つのセキュリティ関連の結果のバイパス、再構築、実行を分離する評価プロトコルの下で、攻撃は84.7%のバイパス、80.2%の再構築、および71.5パーセントの完全な実行を達成した。
論文 参考訳(メタデータ) (2025-11-24T05:42:54Z) - A Multi-Agent LLM Defense Pipeline Against Prompt Injection Attacks [1.1435139523855764]
本稿では,インジェクション攻撃をリアルタイムに検出・中和する新しいマルチエージェント・ディフェンス・フレームワークを提案する。
我々は2つの異なるアーキテクチャ、シーケンシャル・チェーン・オブ・エージェント・パイプラインと階層的コーディネータ・ベース・システムを用いてアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-16T19:11:28Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。