論文の概要: Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection
- arxiv url: http://arxiv.org/abs/2602.11247v1
- Date: Wed, 11 Feb 2026 17:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.485603
- Title: Peak + Accumulation: A Proxy-Level Scoring Formula for Multi-Turn LLM Attack Detection
- Title(参考訳): Peak + Accumulation:multi-Turn LLM検出のためのプロキシレベルスコーリング式
- Authors: J Alex Corll,
- Abstract要約: マルチターンプロンプトインジェクション攻撃は、複数の会話ターンに悪意のある意図を分散させる。
プロキシ層での会話レベルのリスクスコアにターン毎のパターンスコアを集約する公式は存在しない。
本稿では,ピークの単一ターンリスク,持続率,カテゴリの多様性を組み合わせ,ピーク+累積スコアリング法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-turn prompt injection attacks distribute malicious intent across multiple conversation turns, exploiting the assumption that each turn is evaluated independently. While single-turn detection has been extensively studied, no published formula exists for aggregating per-turn pattern scores into a conversation-level risk score at the proxy layer -- without invoking an LLM. We identify a fundamental flaw in the intuitive weighted-average approach: it converges to the per-turn score regardless of turn count, meaning a 20-turn persistent attack scores identically to a single suspicious turn. Drawing on analogies from change-point detection (CUSUM), Bayesian belief updating, and security risk-based alerting, we propose peak + accumulation scoring -- a formula combining peak single-turn risk, persistence ratio, and category diversity. Evaluated on 10,654 multi-turn conversations -- 588 attacks sourced from WildJailbreak adversarial prompts and 10,066 benign conversations from WildChat -- the formula achieves 90.8% recall at 1.20% false positive rate with an F1 of 85.9%. A sensitivity analysis over the persistence parameter reveals a phase transition at rho ~ 0.4, where recall jumps 12 percentage points with negligible FPR increase. We release the scoring algorithm, pattern library, and evaluation harness as open source.
- Abstract(参考訳): マルチターンプロンプトインジェクション攻撃は、各ターンが独立して評価されるという仮定を利用して、複数の会話ターンに悪意のある意図を分散する。
シングルターン検出は広く研究されているが、LLMを呼び出すことなく、ターン毎のパターンスコアをプロキシ層で会話レベルのリスクスコアに集約する公式は存在しない。
直感的な重み付けアプローチの根本的な欠陥は、ターン数に関係なくターン当たりのスコアに収束し、20ターンの永続攻撃スコアは1つの不審なターンと同一である。
変更点検出(CUSUM)やベイズ的信念の更新,セキュリティリスクに基づく警告などの類似性に基づいて,ピーク+累積スコアリング(ピークシングルターンリスク,永続率,カテゴリ多様性を組み合わせた公式)を提案する。
10,654件のマルチターン会話(WildJailbreakによる588件の攻撃、WildChatによる10,066件の良心的会話)で評価され、F1の85.9%で1.20%の偽陽性率で90.8%のリコールを達成した。
持続パラメータに対する感度解析により、rho ~ 0.4 の位相遷移が明らかになり、リコールは無視可能なFPRの増加とともに12パーセントのポイントをジャンプする。
評価アルゴリズム,パターンライブラリ,評価ハーネスをオープンソースとしてリリースする。
関連論文リスト
- BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - StealthRL: Reinforcement Learning Paraphrase Attacks for Multi-Detector Evasion of AI-Text Detectors [0.0]
StealthRLはAIテキスト検出のための強化学習フレームワークである。
我々は,現実的な対向条件下で,マルチ検出器アンサンブルに対してパラフレーズポリシーを訓練する。
StealthRLはゼロに近い検出を実現し、平均AUROCを0.74から0.27に減らし、99.9%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2026-02-09T17:33:46Z) - Replicating TEMPEST at Scale: Multi-Turn Adversarial Attacks Against Trillion-Parameter Frontier Models [0.0]
本研究では、TEMPESTマルチターン攻撃フレームワークを用いて、1000の有害な振る舞いに対して8つのベンダーから10のフロンティアモデルを評価する。
6つのモデルが96%から100%の攻撃成功率(ASR)を達成し、4つのモデルが有意な抵抗を示し、ASRは42%から78%であった。
論文 参考訳(メタデータ) (2025-12-08T00:30:40Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Hybrid Reputation Aggregation: A Robust Defense Mechanism for Adversarial Federated Learning in 5G and Edge Network Environments [0.0]
5Gおよびエッジネットワーク環境におけるフェデレートラーニング(FL)は、敵のクライアントによる深刻なセキュリティ脅威に直面します。
本稿では,攻撃タイプを事前に知ることなく,FLにおける敵の動作を防御する,新しいロバストアグリゲーション機構であるHybrid Reputation Aggregation(HRA)を紹介する。
HRAは、幾何学的異常検出と、モーメントに基づくクライアントの評判追跡を組み合わせる。
論文 参考訳(メタデータ) (2025-09-22T17:18:59Z) - VAULT: Vigilant Adversarial Updates via LLM-Driven Retrieval-Augmented Generation for NLI [15.320553375828045]
VAULTは、NLIモデルの弱点を発見し、改善する完全に自動化された対向的なRAGパイプラインである。
VAULTはデータセット間で、従来よりも最大で2.0%パフォーマンスが向上している。
論文 参考訳(メタデータ) (2025-08-01T14:22:54Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。