論文の概要: Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms
- arxiv url: http://arxiv.org/abs/2604.21131v1
- Date: Wed, 22 Apr 2026 22:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.203763
- Title: Cross-Session Threats in AI Agents: Benchmark, Evaluation, and Algorithms
- Title(参考訳): AIエージェントにおけるクロスセッションの脅威:ベンチマーク、評価、アルゴリズム
- Authors: Ari Azarafrooz,
- Abstract要約: CSTM-Benchは、キルチェーンステージとクロスセッション操作によって分類された26の実行可能な攻撃である。
Hugging FaceでIntrinsec-ai/cstm-benchとしてリリースされた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-agent guardrails are memoryless: each message is judged in isolation, so an adversary who spreads a single attack across dozens of sessions slips past every session-bound detector because only the aggregate carries the payload. We make three contributions to cross-session threat detection. (1) Dataset. CSTM-Bench is 26 executable attack taxonomies classified by kill-chain stage and cross-session operation (accumulate, compose, launder, inject_on_reader), each bound to one of seven identity anchors that ground-truth "violation" as a policy predicate, plus matched Benign-pristine and Benign-hard confounders. Released on Hugging Face as intrinsec-ai/cstm-bench with two 54-scenario splits: dilution (compositional) and cross_session (12 isolation-invisible scenarios produced by a closed-loop rewriter that softens surface phrasing while preserving cross-session artefacts). (2) Measurement. Framing cross-session detection as an information bottleneck to a downstream correlator LLM, we find that a session-bound judge and a Full-Log Correlator concatenating every prompt into one long-context call both lose roughly half their attack recall moving from dilution to cross_session, well inside any frontier context window. Scope: 54 scenarios per shard, one correlator family (Anthropic Claude), no prompt optimisation; we release it to motivate larger, multi-provider datasets. (3) Algorithm and metric. A bounded-memory Coreset Memory Reader retaining highest-signal fragments at $K=50$ is the only reader whose recall survives both shards. Because ranker reshuffles break KV-cache prefix reuse, we promote $\mathrm{CSR\_prefix}$ (ordered prefix stability, LLM-free) to a first-class metric and fuse it with detection into $\mathrm{CSTM} = 0.7 F_1(\mathrm{CSDA@action}, \mathrm{precision}) + 0.3 \mathrm{CSR\_prefix}$, benchmarking rankers on a single Pareto of recall versus serving stability.
- Abstract(参考訳): AIエージェントガードレールはメモリレスで、各メッセージは独立して判断されるため、数十のセッションに1回の攻撃を分散する敵は、アグリゲートだけがペイロードを運ぶため、各セッションバウンド検出器を通り過ぎます。
我々は、クロスセッション脅威検出に3つの貢献をしている。
(1)データセット。
CSTM-Benchは、キルチェーンステージとクロスセッション操作(累積、構成、洗浄、インジェクション_on_reader)によって分類された26の攻撃分類であり、それぞれ、政策述語として「違反」を根本とする7つのアイデンティティアンカーのうちの1つと、ベニグ・プリスティンとベニグ・ハードの共同創設者が一致する。
Hugging Face に intrinsec-ai/cstm-bench としてリリースされ、54-scenario の2つの分割がある。
(2)測定。
セッションバウンド・ジャッジとFull-Log Correlatorは,各プロンプトを1つの長文呼び出しに結合することで,解像からクロス_sessionへの攻撃リコールの約半分を失う。
スコープ: シャード毎に54のシナリオ、ひとつの相関子ファミリー(Anthropic Claude)、迅速な最適化は行いません。
(3)アルゴリズムと計量。
最高符号のフラグメントを$K=50$で保持する境界メモリのCoreset Memory Readerは、両方のシャードをリコールする唯一のリーダである。
ローダーリシャッフルがKV-cacheプレフィックスの再利用を損なうので、$\mathrm{CSR\_prefix}$(順序付きプレフィックス安定性、LLMフリー)を1級計量に昇格させ、それを$\mathrm{CSTM} = 0.7 F_1(\mathrm{CSDA@action}, \mathrm{precision}) + 0.3 \mathrm{CSR\_prefix}$に融合させ、リコールとサービス安定性の単一のPareto上でローダーをベンチマークする。
関連論文リスト
- AEL: Agent Evolving Learning for Open-Ended Environments [43.56685432981852]
本稿では,この障害に対処する2段階のフレームワークであるemphAgent Evolving Learning (ael)を紹介する。
ael はシャープ比 2.13$pm$0.47 を達成し、5つの自己改善法を上回ります。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを追加するのではなく、経験の使い方を自覚していることを示している。
論文 参考訳(メタデータ) (2026-04-23T14:29:25Z) - VeriX-Anon: A Multi-Layered Framework for Mathematically Verifiable Outsourced Target-Driven Data Anonymization [0.0]
VeriX-Anonは、オープンソースのターゲット駆動k匿名化のための多層検証フレームワークである。
認証決定木のメルクル式ハッシュによる決定論的検証、ランダムフォレスト決定境界付近の境界センチネルによる確率的検証、および暗号識別子による正確な重複性ツインズの組み合わせである。
12のシナリオのうち11の偏差を正しく検出した。
論文 参考訳(メタデータ) (2026-04-14T08:22:18Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - Good-Enough LLM Obfuscation (GELO) [0.0]
大きな言語モデル(LLM)は、デバイスメモリに読み取りアクセスする敵がKVキャッシュや隠された状態を観測できるような共有アクセラレーターで提供されることが多い。
本稿では、信頼できない加速器観測からの情報漏洩を制限するプライバシー保護推論プロトコルであるGELOを提案する。
論文 参考訳(メタデータ) (2026-03-05T10:33:48Z) - Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management [47.49917373646469]
既存の防御は肥大した記憶を与えられたまま扱い、回復力を維持することに集中する。
我々は、明示的なメモリ管理を通じて間接的なインジェクションを防御するフレームワークであるAgentSysを紹介する。
論文 参考訳(メタデータ) (2026-02-07T06:28:51Z) - Time Is All It Takes: Spike-Retiming Attacks on Event-Driven Spiking Neural Networks [87.16809558673403]
スパイキングニューラルネットワーク(SNN)は離散スパイクで計算し、時間構造を利用する。
イベント駆動SNNにおけるスパイク数と振幅を保存しながら、既存のスパイクを繰り返すタイミングのみの敵について検討する。
論文 参考訳(メタデータ) (2026-02-03T09:06:53Z) - A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - Quantifying Memory Use in Reinforcement Learning with Temporal Range [51.98491034847041]
時間的範囲(Temporal Range)は、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を扱うモデルに依存しない計量である。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
論文 参考訳(メタデータ) (2025-12-05T22:58:09Z) - Federated Combinatorial Multi-Agent Multi-Armed Bandits [79.1700188160944]
本稿では,Banditを用いたオンライン最適化に適したフェデレーション学習フレームワークを提案する。
この設定では、エージェントのアームサブセットは、個々のアーム情報にアクセスせずにこれらのサブセットに対するノイズの多い報酬を観察し、特定の間隔で協力して情報を共有することができる。
論文 参考訳(メタデータ) (2024-05-09T17:40:09Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。