論文の概要: The Loss of Control Playbook: Degrees, Dynamics, and Preparedness
- arxiv url: http://arxiv.org/abs/2511.15846v1
- Date: Wed, 19 Nov 2025 20:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.359214
- Title: The Loss of Control Playbook: Degrees, Dynamics, and Preparedness
- Title(参考訳): The Loss of Control Playbook: Degrees, Dynamics, and Preparedness
- Authors: Charlotte Stix, Annika Hallensleben, Alejandro Ortega, Matteo Pistillo,
- Abstract要約: 本報告では,新たな分類と準備の枠組みを開発することにより,AIシステムにおけるロス・オブ・コントロール(Los of Control, LoC)の実用的な定義が欠如していることに対処する。
そこで本研究では,重度と持続性の指標に基づいて,偏差,境界LoC,Strict LoCを区別したLoC分類法を提案する。
我々は,社会的脆弱性が到達した場合に,準備の維持と LoC 結果の発生防止を計画した。
- 参考スコア(独自算出の注目度): 39.39076397908963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research report addresses the absence of an actionable definition for Loss of Control (LoC) in AI systems by developing a novel taxonomy and preparedness framework. Despite increasing policy and research attention, existing LoC definitions vary significantly in scope and timeline, hindering effective LoC assessment and mitigation. To address this issue, we draw from an extensive literature review and propose a graded LoC taxonomy, based on the metrics of severity and persistence, that distinguishes between Deviation, Bounded LoC, and Strict LoC. We model pathways toward a societal state of vulnerability in which sufficiently advanced AI systems have acquired or could acquire the means to cause Bounded or Strict LoC once a catalyst, either misalignment or pure malfunction, materializes. We argue that this state becomes increasingly likely over time, absent strategic intervention, and propose a strategy to avoid reaching a state of vulnerability. Rather than focusing solely on intervening on AI capabilities and propensities potentially relevant for LoC or on preventing potential catalysts, we introduce a complementary framework that emphasizes three extrinsic factors: Deployment context, Affordances, and Permissions (the DAP framework). Compared to work on intrinsic factors and catalysts, this framework has the unfair advantage of being actionable today. Finally, we put forward a plan to maintain preparedness and prevent the occurrence of LoC outcomes should a state of societal vulnerability be reached, focusing on governance measures (threat modeling, deployment policies, emergency response) and technical controls (pre-deployment testing, control measures, monitoring) that could maintain a condition of perennial suspension.
- Abstract(参考訳): 本報告では,新たな分類と準備の枠組みを開発することにより,AIシステムにおけるLos of Control(LoC)の実用的な定義の欠如を論じる。
政策や研究の関心が高まりつつあるにもかかわらず、既存のLoC定義はスコープとタイムラインで大きく異なり、効果的なLoC評価と緩和を妨げる。
この問題に対処するために、我々は広範囲にわたる文献レビューを引用し、重度と持続性の測定値に基づいて、偏差、境界LoC、Strict LoCを区別した、段階的なLoC分類法を提案する。
我々は、十分な高度なAIシステムが、触媒、不適応または純粋な誤動作のいずれが成立しても、バウンドまたは複雑なLOCを引き起こす手段を取得または取得することのできる社会的脆弱性状態への経路をモデル化する。
我々は、この状態は時間の経過とともに、戦略的介入が欠如する可能性が高くなり、脆弱性の状態に到達することを避けるための戦略を提案する。
われわれは、LoCに関連する可能性のあるAI機能や、潜在的な触媒の防止にのみ焦点をあてるのではなく、デプロイコンテキスト、アフォード、パーミッション(DAPフレームワーク)という3つの外在的要因を強調する補完的なフレームワークを導入しました。
内在的因子や触媒の研究と比較すると、この枠組みは今日では有効であるという不公平な利点がある。
最後に, 長期休業条件を維持できるガバナンス対策(スリート・モデリング, 展開方針, 緊急対応)と技術制御(プレデプロイ・テスト, 制御措置, 監視)に焦点を当て, 社会的脆弱性の状況が到達した場合に, 準備の維持と LoC 結果の発生防止を図った。
関連論文リスト
- Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Pinpointing crucial steps: Attribution-based Credit Assignment for Verifiable Reinforcement Learning [5.880405013005892]
ACPOは、困難なカリキュラムを組み込んだ段階的なフレームワークである。
ACPOは、トラジェクティブセマンティックセグメンテーションと属性ベースの表現を用いて探索を改善する。
これは、各推論ステップの階層的寄与を正確に定量化する分解された報酬システムによる搾取を強化する。
論文 参考訳(メタデータ) (2025-10-10T01:22:55Z) - A Dynamical Systems Framework for Reinforcement Learning Safety and Robustness Verification [1.104960878651584]
本稿では,学習方針の堅牢性と安全性を検証するための形式的手法の欠如に対処する新しい枠組みを提案する。
動的システム理論からツールを活用することで、システムの振る舞いを管理する隠れた「骨格」として機能するラグランジアンコヒーレント構造(LCS)を特定し視覚化する。
この枠組みは政策行動の包括的かつ解釈可能な評価を提供し、報酬のみに基づいて成功しているように見える政策の重大な欠陥の特定に成功していることを示す。
論文 参考訳(メタデータ) (2025-08-21T14:00:26Z) - Limits of Safe AI Deployment: Differentiating Oversight and Control [0.0]
「Human oversight」は、監視や制御といった重要な概念の曖昧さや矛盾した解釈を成すリスクである。
本稿では,AI以外の文献の監視を対象とする批判的レビューを行う。
コントロールは失敗を防ぐことを目的としており、監視は将来の予防のための検出、修復、インセンティブに焦点を当てている。
論文 参考訳(メタデータ) (2025-07-04T12:22:35Z) - Toward a Global Regime for Compute Governance: Building the Pause Button [0.4952055253916912]
計算資源へのアクセスを制限することにより,AIシステムのトレーニングを防止するためのガバナンスシステムを提案する。
技術的、トレーサビリティ、規制という3つの重要な介入ポイントを特定し、それらをガバナンス-執行-検証フレームワークにまとめます。
技術的メカニズムとしては、改ざん防止FLOPキャップ、モデルロック、オフラインライセンスなどがある。
論文 参考訳(メタデータ) (2025-06-25T15:18:19Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z) - Balancing detectability and performance of attacks on the control
channel of Markov Decision Processes [77.66954176188426]
マルコフ決定過程(MDPs)の制御チャネルにおける最適ステルス毒素攻撃の設計問題について検討する。
この研究は、MDPに適用された敵国・毒殺攻撃や強化学習(RL)手法に対する研究コミュニティの最近の関心に動機づけられている。
論文 参考訳(メタデータ) (2021-09-15T09:13:10Z) - Towards Understanding the Adversarial Vulnerability of Skeleton-based
Action Recognition [133.35968094967626]
骨格に基づく行動認識は、動的状況への強い適応性から注目を集めている。
ディープラーニング技術の助けを借りて、かなり進歩し、現在、良識のある環境で約90%の精度を達成している。
異なる対角的環境下での骨格に基づく行動認識の脆弱性に関する研究はいまだ研究されていない。
論文 参考訳(メタデータ) (2020-05-14T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。