論文の概要: Quantifying Automation Risk in High-Automation AI Systems: A Bayesian Framework for Failure Propagation and Optimal Oversight
- arxiv url: http://arxiv.org/abs/2602.18986v1
- Date: Sun, 22 Feb 2026 00:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.430415
- Title: Quantifying Automation Risk in High-Automation AI Systems: A Bayesian Framework for Failure Propagation and Optimal Oversight
- Title(参考訳): ハイオートメーションAIシステムにおける自動化リスクの定量化: 障害伝播と最適監視のためのベイズ的フレームワーク
- Authors: Vishal Srivastava, Tanmay Sah,
- Abstract要約: 本稿では,3項の積として期待損失を表す同相のベイズリスク分解を提案する。
このフレームワークは、モデル精度のみではなく、実行と監視のリスクをキャプチャする。
われわれは、2012年のナイト・キャピタル事件を、広く適用可能な障害パターンの1つのインスタンス化として、実証的なケーススタディで、このフレームワークを動機付けている。
- 参考スコア(独自算出の注目度): 1.6328866317851185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations across finance, healthcare, transportation, content moderation, and critical infrastructure are rapidly deploying highly automated AI systems, yet they lack principled methods to quantify how increasing automation amplifies harm when failures occur. We propose a parsimonious Bayesian risk decomposition expressing expected loss as the product of three terms: the probability of system failure, the conditional probability that a failure propagates into harm given the automation level, and the expected severity of harm. This framework isolates a critical quantity -- the conditional probability that failures propagate into harm -- which captures execution and oversight risk rather than model accuracy alone. We develop complete theoretical foundations: formal proofs of the decomposition, a harm propagation equivalence theorem linking the harm propagation probability to observable execution controls, risk elasticity measures, efficient frontier analysis for automation policy, and optimal resource allocation principles with second-order conditions. We motivate the framework with an illustrative case study of the 2012 Knight Capital incident ($440M loss) as one instantiation of a broadly applicable failure pattern, and characterize the research design required to empirically validate the framework at scale across deployment domains. This work provides the theoretical foundations for a new class of deployment-focused risk governance tools for agentic and automated AI systems.
- Abstract(参考訳): 金融、ヘルスケア、交通機関、コンテンツモデレーション、そして重要なインフラにわたる組織は、高度に自動化されたAIシステムを迅速に展開している。
システム障害の確率, 故障が進行する条件付き確率, 自動化レベル, 損傷の重大度という3つの項の積として, 期待損失を表す擬似ベイズリスク分解を提案する。
このフレームワークは重要な量 -- 障害が危険に伝播する条件付き確率 -- を分離し、モデル精度のみではなく、実行と監視リスクをキャプチャする。
我々は, 分解の形式的証明, 調和伝播確率を観測可能な実行制御に結びつける調和伝播等価定理, リスク弾力性対策, 自動化政策のための効率的なフロンティア分析, および2次条件による最適資源配分原理の完全な理論基盤を開発する。
われわれは、2012年ナイトキャピタル事件(4億4000万ドル損失)を、広く適用可能な障害パターンの1つのインスタンス化として実証的なケーススタディでフレームワークを動機付け、デプロイメントドメイン全体にわたってフレームワークを大規模に検証するために必要な研究設計を特徴付ける。
この研究は、エージェントと自動化AIシステムのための、デプロイ中心のリスク管理ツールの新たなクラスの理論的基盤を提供する。
関連論文リスト
- Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - Adaptive Accountability in Networked MAS: Tracing and Mitigating Emergent Norms at Scale [2.28438857884398]
大規模ネットワーク化されたマルチエージェントシステムは、ますます重要なインフラの基盤となっている。
ライフサイクルを意識した監査台帳を通じて責任フローをトレースする適応的説明責任フレームワークを導入する。
我々は、期待される介入コストが敵の支払額を超えると、妥協された相互作用の長期比率は1より厳密に小さい定数で制限されることを示す有界補完定理を証明した。
論文 参考訳(メタデータ) (2025-12-21T02:04:47Z) - The Role of Risk Modeling in Advanced AI Risk Management [33.357295564462284]
急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。
これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。
先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-12-09T15:37:33Z) - Generalized Inequality-based Approach for Probabilistic WCET Estimation [0.0]
本稿では,チェビシェフの不等式に飽和関数を組み込むことにより,このような悲観性を減少させる手法を提案する。
オートウェア自動走行スタックからの合成および実世界データの評価は,提案手法がそのような分布に対してより安全かつ厳密な境界を達成できることを実証する。
論文 参考訳(メタデータ) (2025-11-12T06:19:31Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - CORTEX: Composite Overlay for Risk Tiering and Exposure in Operational AI Systems [0.812761334568906]
本稿では,AIシステムの脆弱性を評価し,評価する多層リスクスコアリングフレームワークであるCORTEXを紹介する。
AIインシデントデータベース(AIID)に記録された1200件以上のインシデントを実証分析した。
結果として得られる複合スコアは、AIリスクレジスタ、モデル監査、適合性チェック、動的ガバナンスダッシュボード間で運用することができる。
論文 参考訳(メタデータ) (2025-08-24T07:30:25Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。