論文の概要: Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents
- arxiv url: http://arxiv.org/abs/2604.24686v1
- Date: Mon, 27 Apr 2026 16:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.181401
- Title: Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents
- Title(参考訳): 監視できないものを排除する - 自律型AIエージェントのための適応型ランタイムガバナンス
- Authors: German Marin, Jatin Chaudhary,
- Abstract要約: 自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous AI agents can remain fully authorized and still become unsafe as behavior drifts, adversaries adapt, and decision patterns shift without any code change. We propose the \textbf{Informational Viability Principle}: governing an agent reduces to estimating a bound on unobserved risk $\hat{B}(x) = U(x) + SB(x) + RG(x)$ and allowing an action only when its capacity $S(x)$ exceeds $\hat{B}(x)$ by a safety margin. The \textbf{Agent Viability Framework}, grounded in Aubin's viability theory, establishes three properties -- monitoring (P1), anticipation (P2), and monotonic restriction (P3) -- as individually necessary and collectively sufficient for documented failure modes. \textbf{RiskGate} instantiates the framework with dedicated statistical estimators (KL divergence, segment-vs-rest $z$-tests, sequential pattern matching), a fail-secure monotonic pipeline, and a closed-loop Autopilot formalised as an instance of Aubin's regulation map with kill-switch-as-last-resort; a scalar Viability Index $VI(t) \in [-1,+1]$ with first-order $t^*$ prediction transforms governance from reactive to predictive. Contributions are the theoretical framework, the reference implementation, and analytical coverage against published agent-failure taxonomies; quantitative empirical evaluation is scoped as follow-up work.
- Abstract(参考訳): 自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクである$\hat{B}(x) = U(x) + SB(x) + RG(x)$を推定し、そのキャパシティ$S(x)$が$\hat{B}(x)$を超える場合にのみアクションを許容する。
Agent Viability Framework}は、Aubinの生存可能性理論に基づいて、モニタリング(P1)、予測(P2)、モノトニック制限(P3)という3つの特性を、個別に必要で、文書化された障害モードに十分なものとして確立している。
専用の統計推定器 (KL divergence, segment-vs-rest $z$-tests, sequence pattern matching)、フェールセキュアなモノトニックパイプライン、およびAubinの規制マップの例として形式化されたクローズループAutopilot、スカラービビリティ指数 $VI(t) \in [-1,+1]$とファーストオーダー$t^*$で、フレームワークをインスタンス化する。
コントリビューションは、理論的枠組み、参照実装、および公表されたエージェント障害分類群に対する分析的カバレッジであり、定量的な実証的評価はフォローアップワークとして扱われる。
関連論文リスト
- A Nonasymptotic Theory of Gain-Dependent Error Dynamics in Behavior Cloning [4.822598110892847]
位置制御ロボットの動作クローニングポリシーは、基礎となるPDコントローラの閉ループ応答を継承する。
我々は、ゲイン依存閉ループ力学により、ガウス以下の独立な動作誤差が伝播することを示す。
論文 参考訳(メタデータ) (2026-04-15T23:53:09Z) - Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements [66.94250413799232]
分散パラメータ-サーバ-ワーカー設定における乱数ベクトル$X$の推定について検討する。
主な課題は、敵の計測と非同期である。
その結果, 分散線形推定におけるロバスト性, 識別性, 統計的効率の統一的有限時間評価が得られた。
論文 参考訳(メタデータ) (2026-04-07T11:45:55Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning [1.9290392443571385]
AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
我々は、この仮定を、潜伏した文脈条件のポリシーによって定式化し、挑戦する。
ブラックボックス評価者が配置リスクを確実に見積もることができないという基本的な制限を確立します。
論文 参考訳(メタデータ) (2026-02-19T01:03:11Z) - Reliability, Embeddedness, and Agency: A Utility-Driven Mathematical Framework for Agent-Centric AI Adoption [0.0]
我々は,マルチステップタスクを実行するエージェント中心のAIシステムの採用を継続するための3つの公理を定式化する。
我々は、崩壊するノベルティ用語と成長するユーティリティ用語の和として、採用をモデル化する。
論文 参考訳(メタデータ) (2025-08-18T12:53:38Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Delta-AI: Local objectives for amortized inference in sparse graphical models [64.5938437823851]
スパース確率的グラフィカルモデル(PGM)における補正推論のための新しいアルゴリズムを提案する。
提案手法は, PGMにおける変数のサンプリングをエージェントが行う一連の行動とみなす場合, エージェントのポリシー学習目的において, PGMの疎結合が局所的な信用割当を可能にするという観察に基づいている。
合成PGMからサンプリングし、スパース因子構造を持つ潜在変数モデルを訓練するための$Delta$-AIの有効性について説明する。
論文 参考訳(メタデータ) (2023-10-03T20:37:03Z) - Contextual Combinatorial Bandits with Probabilistically Triggered Arms [55.9237004478033]
確率的に誘発される腕(C$2$MAB-T)を様々な滑らかさ条件下で検討した。
トリガー変調 (TPM) 条件の下では、C$2$-UC-Tアルゴリズムを考案し、後悔すべき$tildeO(dsqrtT)$を導出する。
論文 参考訳(メタデータ) (2023-03-30T02:51:00Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。