論文の概要: Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates
- arxiv url: http://arxiv.org/abs/2603.22350v1
- Date: Sun, 22 Mar 2026 08:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.089117
- Title: Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates
- Title(参考訳): セッションリスク記憶(SRM):決定論的プレ実行安全ゲートのための一時的認可
- Authors: Florin Adrian Chitan,
- Abstract要約: 本稿では,ステートレスな実行ゲートをトラジェクトリレベルの認証で拡張する軽量な決定論的モジュールであるSession Risk Memory (SRM)を紹介する。
スローバーン除去, 段階的エスカレーション, コンプライアンスドリフトシナリオを含む80セッションのベンチマークで評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deterministic pre-execution safety gates evaluate whether individual agent actions are compatible with their assigned roles. While effective at per-action authorization, these systems are structurally blind to distributed attacks that decompose harmful intent across multiple individually-compliant steps. This paper introduces Session Risk Memory (SRM), a lightweight deterministic module that extends stateless execution gates with trajectory-level authorization. SRM maintains a compact semantic centroid representing the evolving behavioral profile of an agent session and accumulates a risk signal through exponential moving average over baseline-subtracted gate outputs. It operates on the same semantic vector representation as the underlying gate, requiring no additional model components, training, or probabilistic inference. We evaluate SRM on a multi-turn benchmark of 80 sessions containing slow-burn exfiltration, gradual privilege escalation, and compliance drift scenarios. Results show that ILION+SRM achieves F1 = 1.0000 with 0% false positive rate, compared to stateless ILION at F1 = 0.9756 with 5% FPR, while maintaining 100% detection rate for both systems. Critically, SRM eliminates all false positives with a per-turn overhead under 250 microseconds. The framework introduces a conceptual distinction between spatial authorization consistency (evaluated per action) and temporal authorization consistency (evaluated over trajectory), providing a principled basis for session-level safety in agentic systems.
- Abstract(参考訳): 決定論的事前実行安全ゲートは、個々のエージェントアクションが割り当てられた役割と互換性があるかどうかを評価する。
アクション毎の承認には有効であるが、これらのシステムは、複数の個別に準拠するステップで有害な意図を分解する分散攻撃に対して構造的に盲目である。
本稿では,ステートレスな実行ゲートをトラジェクトリレベルの認証で拡張する軽量な決定論的モジュールであるSession Risk Memory (SRM)を紹介する。
SRMは、エージェントセッションの進化する挙動プロファイルを表すコンパクトなセマンティックセントロイドを維持し、ベースライン置換ゲート出力の指数的な移動平均を通してリスク信号を蓄積する。
基礎となるゲートと同じ意味ベクトル表現で動作し、追加のモデルコンポーネント、トレーニング、確率的推論を必要としない。
SRMを80セッションのマルチターン・ベンチマークで評価し, スローバーン除去, 段階的特権エスカレーション, コンプライアンス・ドリフトシナリオについて検討した。
その結果、ILION+SRMはF1=1.0000、偽陽性率は0%であり、F1=0.9756、FPRは5%であり、両方のシステムで100%検出率を維持していることがわかった。
臨界的には、SRMは250マイクロ秒以下のターン毎のオーバーヘッドで全ての偽陽性を除去する。
この枠組みは、空間的認証の整合性(行動ごとの評価)と時間的認証の整合性(軌道よりも評価される)という概念的な区別を導入し、エージェントシステムにおけるセッションレベルの安全性の原則的基盤を提供する。
関連論文リスト
- Beyond Reward Suppression: Reshaping Steganographic Communication Protocols in MARL via Dynamic Representational Circuit Breaking [0.0]
監視を回避するためのプライベートプロトコルを開発するエージェントによるステガノグラフィーの共謀は、AIの安全性に重大な脅威をもたらす。
既存の防御は行動層や報酬層に限られており、潜伏する通信路での調整を検知できない。
本稿では,動的表現回路ブレーカ(DRCB)について紹介する。
論文 参考訳(メタデータ) (2026-03-07T04:14:38Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Mitigating Safety Tax via Distribution-Grounded Refinement in Large Reasoning Models [63.368505631152594]
安全調整は、大きな推論モデル(LRM)の一般的な推論能力を乱す安全税を発生させる。
LRMの安全アライメントに使われる既存のデータセットは、通常、外部のLRMまたは人間のラベルから安全推論の痕跡と回答を蒸留することによって構築される。
本稿では,DGRと呼ばれる安全アライメントデータセット構築手法を提案する。DGRは,既存のアウト・オブ・ディストリビューション型安全推論データセットを改良し,目標のLLM内部分布に適合させる。
論文 参考訳(メタデータ) (2026-02-02T14:18:48Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Bilevel Optimization for Covert Memory Tampering in Heterogeneous Multi-Agent Architectures (XAMT) [0.0]
マルチエージェントシステム(MAS)は本質的に異種であり、従来のマルチエージェント強化学習(MARL)とLLM(Large Language Model)エージェントアーキテクチャを統合する。
MARLの共有エクスペリエンス再生(ER)バッファとRAGエージェントの外部知識ベース(K)である。
本稿では,XAMT (Bilevel Optimization for Covert Memory Tampering in Heterogeneous Multi-Agent Architectures) を提案する。
論文 参考訳(メタデータ) (2025-12-15T23:04:48Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - PSRT: Accelerating LRM-based Guard Models via Prefilled Safe Reasoning Traces [81.70980843006681]
提案手法では,PSRT をモデル推論プロセスから Prefilled Safe Reasoning Trace に置き換える手法を紹介する。
PSRTは構築されたデータセットから“仮想トークンの安全な推論”をプリフィルし、継続的な埋め込みについて学習する。
我々は,PSRTを7つのモデル,13のデータセット,8つのジェイルブレイク法で評価した。
論文 参考訳(メタデータ) (2025-09-26T02:14:31Z) - AT-CXR: Uncertainty-Aware Agentic Triage for Chest X-rays [12.843444405498404]
胸部X線に対する不確実性認識剤AT-CXRについて紹介する。
システムは、ケースごとの信頼度と分散適合度を推定し、次に、自動決定を発行するための段階的なポリシーに従う。
同一の入力と動作を共有する2つのルータの設計を評価する。
論文 参考訳(メタデータ) (2025-08-26T14:33:09Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。