論文の概要: AI Loss of Control Incident Management: Response & Resilience
- arxiv url: http://arxiv.org/abs/2605.30406v1
- Date: Thu, 28 May 2026 17:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.148606
- Title: AI Loss of Control Incident Management: Response & Resilience
- Title(参考訳): 制御インシデント管理のAI損失 - 応答とレジリエンス
- Authors: Ross Gruetzemacher,
- Abstract要約: 本稿では,破滅的AILOCインシデントを管理するための基盤的枠組みと分類について紹介する。
3つの重度クラスを特定のシナリオ行列にマッピングすることにより、前例のないAIリスクを管理するための具体的かつ比例的なガイドを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research demonstrating AI systems exhibiting deception and shutdown resistance suggests that AI loss of control (LOC) is an urgent policy concern , yet current literature focuses almost exclusively on alignment and prevention. To address this gap, this paper introduces a foundational framework and taxonomy for managing catastrophic AI LOC incidents. The taxonomy's first level distinguishes between scenarios where regaining control is 'extremely costly' versus 'impossible'. While impossible scenarios demand immediate resilience investments to fundamentally restrict an AI's attack surface , extremely costly scenarios require active incident management via Containment and Threat Neutralization. The framework further categorizes these manageable events into accidental LOC (requiring automated circuit-breaker responses) and adversarial LOC (requiring graduated escalatory measures). By mapping three severity classes to specific scenario matrices, this paper provides a concrete, proportional guide for managing unprecedented AI risks.
- Abstract(参考訳): 詐欺や閉鎖抵抗を示すAIシステムを実証する最近の研究は、AIの制御喪失(LOC)が緊急の政策上の懸念であることを示しているが、現在の文献は、アライメントと予防にのみ焦点を絞っている。
このギャップに対処するために、破滅的なAILOCインシデントを管理するための基礎的枠組みと分類法を提案する。
分類学の第1段階は、制御の回復が「極端にコストがかかる」シナリオと「不可能」なシナリオを区別する。
不可能なシナリオはAIの攻撃面を根本的に制限するために即時レジリエンス投資を要求するが、非常にコストのかかるシナリオは、ContainmentとThreat Neutralizationを通じて、積極的なインシデント管理を必要とする。
このフレームワークは、これらの管理可能なイベントを、偶然のLOC(自動サーキットブレーカ応答の要求)と反対のLOC(段階的なエスカレーション対策の要求)に分類する。
3つの重度クラスを特定のシナリオ行列にマッピングすることにより、前例のないAIリスクを管理するための具体的かつ比例的なガイドを提供する。
関連論文リスト
- Provably Secure Agent Guardrail [89.79561918065122]
既存の防衛アーキテクチャは経験的セマンティックガードレールと確率論的大モデル調整器に依存している。
本稿では,論理的推論の基本的制約に基づくエージェントのための新しいセキュリティパラダイムを提案する。
論文 参考訳(メタデータ) (2026-05-28T02:12:41Z) - Quantifying Automation Risk in High-Automation AI Systems: A Bayesian Framework for Failure Propagation and Optimal Oversight [1.6328866317851185]
本稿では,3項の積として期待損失を表す同相のベイズリスク分解を提案する。
このフレームワークは、モデル精度のみではなく、実行と監視のリスクをキャプチャする。
われわれは、2012年のナイト・キャピタル事件を、広く適用可能な障害パターンの1つのインスタンス化として、実証的なケーススタディで、このフレームワークを動機付けている。
論文 参考訳(メタデータ) (2026-02-22T00:18:23Z) - Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5 [61.787178868669265]
この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
論文 参考訳(メタデータ) (2026-02-16T04:30:06Z) - Adversarial Generation and Collaborative Evolution of Safety-Critical Scenarios for Autonomous Vehicles [47.25901323750217]
シミュレーションにおける安全クリティカルシナリオの生成は、社会に道路が配備される以前、自動運転車の安全性評価においてますます重要になっている。
我々は,新たなシナリオを推論し,複雑なトラフィックフローでそれらを増幅することにより,多彩な安全クリティカルシナリオを生成できるフレームワークであるScenGEを提案する。
実世界の車両テストと人間による評価を通じて、我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2025-08-20T08:36:57Z) - Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。
セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。
本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文 参考訳(メタデータ) (2025-01-23T11:10:02Z) - Two Types of AI Existential Risk: Decisive and Accumulative [3.5051464966389116]
本稿では,従来の「決定型AI x-リスク仮説」と「累積型AI x-リスク仮説」を対比する。
累積的な視点は、AIリスクに関する一見互換性のない視点を調整できる、と氏は主張する。
論文 参考訳(メタデータ) (2024-01-15T17:06:02Z) - Scalable AI Safety via Doubly-Efficient Debate [37.25328923531058]
強力な能力を持つ事前訓練されたAIシステムの出現は、AI安全性に対する重要な課題を提起している。
当初のフレームワークは、正直な戦略がAIシステムを指数関数的なステップでシミュレートできるという仮定に基づいていた。
新しいプロトコルを設計することで、これらの課題に対処する方法を示す。
論文 参考訳(メタデータ) (2023-11-23T17:46:30Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。