論文の概要: Alignment Contracts for Agentic Security Systems
- arxiv url: http://arxiv.org/abs/2605.00081v1
- Date: Thu, 30 Apr 2026 14:38:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.680654
- Title: Alignment Contracts for Agentic Security Systems
- Title(参考訳): エージェントセキュリティシステムのアライメント契約
- Authors: Isaac David, Marco Guarnieri, Arthur Gervais,
- Abstract要約: 我々は、観測可能な効果トレースに対する行動制約を規定し、強制するためのフレームワークであるアライメント契約を導入する。
契約は、スコープ、許容および禁止された効果、リソース予算、開示ポリシーを定義します。
リーン4アーティファクトは、論文が使用する公式なコア定理をチェックします。
- 参考スコア(独自算出の注目度): 7.008213336755055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic security systems increasingly combine LLM planners with tools that can discover, validate, and report vulnerabilities. This creates an asymmetric control problem: the system should retain strong offensive capability inside an authorized engagement, while the same capabilities must be denied outside scope. Existing guardrails provide useful policy controls, but they do not make this boundary a first-class formal contract over observable effects. We introduce alignment contracts, a framework for specifying and enforcing behavioral constraints over observable effect traces. A contract defines scope, allowed and forbidden effects, resource budgets, and disclosure policies. We give the language finite-trace semantics, characterize satisfaction as a safety property with finite violation witnesses, develop refinement and one-way composition rules for modular contract engineering, and show that admissibility checking is decidable. We instantiate the framework for web-focused agentic security workflows and show how the same structure extends to other effect profiles. Under an explicit Effect Observability Assumption, where all $\SigmaEff$-effects are mediated, the soundness theorem quantifies over the agent model and gives guarantees for mediated $\SigmaEff$-effects, including enforcement soundness for monitor-realized traces. We also state an assumption-lifted adaptation result and formalize limits through undecidability transfer and observability-boundary theorems. A Lean 4 artifact checks the formal core theorems used by the paper.
- Abstract(参考訳): エージェントセキュリティシステムは、LSMプランナーと脆弱性を発見し、検証し、報告するツールをますます組み合わせている。
システムは認証されたエンゲージメント内で強力な攻撃能力を保持する必要があるが、同じ能力は外部のスコープで否定されなければならない。
既存のガードレールは、有用なポリシーコントロールを提供するが、観測可能な効果に対して、この境界を第一級の正式な契約とはしない。
我々は、観測可能な効果トレースに対する行動制約を規定し、強制するためのフレームワークであるアライメント契約を導入する。
契約は、スコープ、許容および禁止された効果、リソース予算、開示ポリシーを定義します。
言語に有限トレースのセマンティクスを与え、有限違反証人による安全特性として満足度を特徴付け、モジュラーコントラクトエンジニアリングのための改良と片道構成ルールを開発し、許容性チェックが決定可能であることを示す。
我々は、Webにフォーカスしたエージェントセキュリティワークフローのフレームワークをインスタンス化し、同じ構造が他のエフェクトプロファイルにどのように拡張されるかを示す。
すべての$\SigmaEff$-エフェクトが媒介される明示的なエフェクト・オブザーバビリティ・アセスメントの下で、サウンドネス定理はエージェントモデル上で定量化され、モニター実現トレースの強制音性を含む$\SigmaEff$-エフェクトの保証を与える。
また、仮定リフト適応結果を示し、不決定性移動と可観測性-有界定理を通じて極限を定式化する。
リーン4アーティファクトは、論文が使用する公式なコア定理をチェックします。
関連論文リスト
- PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - GAVEL: Towards rule-based safety through activation monitoring [2.337566423505956]
大規模言語モデル(LLM)は、有害な行動を検出し予防するために、アクティベーションベースの監視とペアになってきています。
既存のアクティベーション安全性アプローチ、幅広い誤用データセットのトレーニング、精度の低下、柔軟性の制限、解釈可能性の欠如。
本稿では,サイバーセキュリティにおけるルール共有プラクティスにインスパイアされた,ルールベースのアクティベーション安全という新たなパラダイムを紹介する。
論文 参考訳(メタデータ) (2026-01-27T16:31:39Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - CoTGuard: Using Chain-of-Thought Triggering for Copyright Protection in Multi-Agent LLM Systems [55.57181090183713]
我々は、Chain-of-Thought推論内でトリガーベースの検出を活用する著作権保護のための新しいフレームワークであるCoTGuardを紹介する。
具体的には、特定のCoTセグメントをアクティベートし、特定のトリガクエリをエージェントプロンプトに埋め込むことで、未許可コンテンツ再生の中間的推論ステップを監視する。
このアプローチは、協調エージェントシナリオにおける著作権侵害の微細かつ解釈可能な検出を可能にする。
論文 参考訳(メタデータ) (2025-05-26T01:42:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。