論文の概要: Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2602.22302v1
- Date: Wed, 25 Feb 2026 18:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.369607
- Title: Agent Behavioral Contracts: Formal Specification and Runtime Enforcement for Reliable Autonomous AI Agents
- Title(参考訳): エージェント行動契約: 信頼性の高い自律AIエージェントのための形式仕様と実行時強制
- Authors: Varun Pratap Bhardwaj,
- Abstract要約: Agent Behavioral Contracts (ABC)は、自律型AIエージェントにDesign-by-Contractの原則をもたらす正式なフレームワークである。
ABCは、プリコンディション、不変性、ガバナンスポリシー、およびリカバリメカニズムをランタイム強化可能なコンポーネントとして定義している。
実行時実行ライブラリであるAgentAssertにABCを実装し、AgentContract-Benchで評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Traditional software relies on contracts -- APIs, type systems, assertions -- to specify and enforce correct behavior. AI agents, by contrast, operate on prompts and natural language instructions with no formal behavioral specification. This gap is the root cause of drift, governance failures, and frequent project failures in agentic AI deployments. We introduce Agent Behavioral Contracts (ABC), a formal framework that brings Design-by-Contract principles to autonomous AI agents. An ABC contract C = (P, I, G, R) specifies Preconditions, Invariants, Governance policies, and Recovery mechanisms as first-class, runtime-enforceable components. We define (p, delta, k)-satisfaction -- a probabilistic notion of contract compliance that accounts for LLM non-determinism and recovery -- and prove a Drift Bounds Theorem showing that contracts with recovery rate gamma > alpha (the natural drift rate) bound behavioral drift to D* = alpha/gamma in expectation, with Gaussian concentration in the stochastic setting. We establish sufficient conditions for safe contract composition in multi-agent chains and derive probabilistic degradation bounds. We implement ABC in AgentAssert, a runtime enforcement library, and evaluate on AgentContract-Bench, a benchmark of 200 scenarios across 7 models from 6 vendors. Results across 1,980 sessions show that contracted agents detect 5.2-6.8 soft violations per session that uncontracted baselines miss entirely (p < 0.0001, Cohen's d = 6.7-33.8), achieve 88-100% hard constraint compliance, and bound behavioral drift to D* < 0.27 across extended sessions, with 100% recovery for frontier models and 17-100% across all models, at overhead < 10 ms per action.
- Abstract(参考訳): 従来のソフトウェアは、正しい振る舞いを規定し強制するために、API、型システム、アサーションといったコントラクトに依存しています。
対照的にAIエージェントは、正式な行動仕様のないプロンプトや自然言語命令を操作する。
このギャップは、エージェントAIデプロイメントにおけるドリフト、ガバナンスの失敗、頻繁なプロジェクトの失敗の根本原因である。
我々は,自律型AIエージェントにデザイン・バイ・コントラクトの原則をもたらすフォーマルなフレームワークであるAgen Behavioral Contracts (ABC)を紹介した。
ABCコントラクトC = (P, I, G, R) は、プリコンディション、不変性、ガバナンスポリシー、リカバリメカニズムを第一級で実行時強化可能なコンポーネントとして定義する。
我々は, (p, delta, k)-satisfaction を LLM の非決定性および回復性を考慮した契約コンプライアンスの確率論的概念として定義し, 回復率 γ > α (自然ドリフトレート) との契約が, 確率的条件におけるガウス濃度とともに, D* = α/γ に束縛されることを示すドリフト境界理論を証明した。
マルチエージェントチェーンにおける安全な契約構成のための十分な条件を確立し,確率的劣化境界を導出する。
実行時実行ライブラリであるAgentAssertにABCを実装し、AgentContract-Benchで評価する。
1,980セッションの結果、契約されたエージェントがセッション毎に5.2-6.8のソフト違反を検出し、未契約のベースラインが完全に外れた(p < 0.0001, Cohen's d = 6.7-33.8)。
関連論文リスト
- Early-Stage Prediction of Review Effort in AI-Generated Pull Requests [0.0]
我々は,2,807リポジトリにわたるAIDevデータセットから,エージェントによるPR33,707件を分析した。
本稿では,高解像度PRを生成時に予測するサーキットブレーカートリアージモデルを提案する。
論文 参考訳(メタデータ) (2026-01-02T17:18:01Z) - Enforcing Temporal Constraints for LLM Agents [10.694240979134326]
既存のガードレールは不正確な自然言語命令やポストホック監視に依存している。
本稿では,LDMエージェントが正式な時間的安全特性に準拠することを保証するランタイム保証を提供する新しいフレームワークであるAgent-Cを提案する。
我々は,Agent-Cを,小売顧客サービスと航空券予約システムという,現実世界の2つのアプリケーションで評価する。
論文 参考訳(メタデータ) (2025-12-25T06:12:13Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Agent0: Unleashing Self-Evolving Agents from Zero Data via Tool-Integrated Reasoning [84.70211451226835]
大規模言語モデル(LLM)エージェントは、人間の計算データへの依存によって制約される。
我々は,外部データを持たない高性能エージェントを進化させる完全自律型フレームワークであるAgent0を紹介する。
Agent0は推論能力を大幅に向上させ、Qwen3-8B-Baseモデルを数学的推論で18%改善し、一般的な推論ベンチマークで24%改善した。
論文 参考訳(メタデータ) (2025-11-20T05:01:57Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - Towards Secure and Explainable Smart Contract Generation with Security-Aware Group Relative Policy Optimization [18.013438474903314]
本稿では,スマートコントラクト生成をセキュアかつ説明可能なフレームワークであるSmartCoder-R1を提案する。
我々は、人間のセキュリティ分析をエミュレートするためにモデルを訓練する。
SmartCoder-R1は、テクニックの新たな状態を確立し、5つの主要なメトリクスで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-12T03:14:50Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - AgentSpec: Customizable Runtime Enforcement for Safe and Reliable LLM Agents [8.290987399121343]
LLMエージェントのランタイム制約を指定・強制するための軽量言語であるAgentSpecを提案する。
AgentSpecでは、トリガー、述語、執行機構を含む構造化ルールを定義する。
コード実行、エンボディエージェント、自律運転など、複数のドメインにまたがるAgentSpecを実装しています。
論文 参考訳(メタデータ) (2025-03-24T13:31:48Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。