論文の概要: Systematic Hazard Analysis for Frontier AI using STPA
- arxiv url: http://arxiv.org/abs/2506.01782v1
- Date: Mon, 02 Jun 2025 15:28:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.579323
- Title: Systematic Hazard Analysis for Frontier AI using STPA
- Title(参考訳): STPAを用いたフロンティアAIの系統的ハザード解析
- Authors: Simon Mylius,
- Abstract要約: 現在、フロンティアAI企業は、ハザードを特定し分析するための構造化アプローチの詳細を記述していない。
システム理論プロセス分析(Systems-Theoretic Process Analysis)は、複雑なシステムがいかに危険に晒されるかを特定するための体系的な方法論である。
我々は、フロンティアAIシステムにおいて、スコープを広げ、トレーサビリティを向上し、安全性保証の堅牢性を強化する能力を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: All of the frontier AI companies have published safety frameworks where they define capability thresholds and risk mitigations that determine how they will safely develop and deploy their models. Adoption of systematic approaches to risk modelling, based on established practices used in safety-critical industries, has been recommended, however frontier AI companies currently do not describe in detail any structured approach to identifying and analysing hazards. STPA (Systems-Theoretic Process Analysis) is a systematic methodology for identifying how complex systems can become unsafe, leading to hazards. It achieves this by mapping out controllers and controlled processes then analysing their interactions and feedback loops to understand how harmful outcomes could occur (Leveson & Thomas, 2018). We evaluate STPA's ability to broaden the scope, improve traceability and strengthen the robustness of safety assurance for frontier AI systems. Applying STPA to the threat model and scenario described in 'A Sketch of an AI Control Safety Case' (Korbak et al., 2025), we derive a list of Unsafe Control Actions. From these we select a subset and explore the Loss Scenarios that lead to them if left unmitigated. We find that STPA is able to identify causal factors that may be missed by unstructured hazard analysis methodologies thereby improving robustness. We suggest STPA could increase the safety assurance of frontier AI when used to complement or check coverage of existing AI governance techniques including capability thresholds, model evaluations and emergency procedures. The application of a systematic methodology supports scalability by increasing the proportion of the analysis that could be conducted by LLMs, reducing the burden on human domain experts.
- Abstract(参考訳): すべてのフロンティアAI企業が安全フレームワークを公開し、機能しきい値とリスク軽減を定義し、モデルを安全に開発しデプロイする方法を決定する。
安全クリティカルな産業で使用される確立されたプラクティスに基づくリスクモデリングへの体系的なアプローチの採用が推奨されているが、フロンティアAI企業は現在、ハザードを特定し分析するための構造化アプローチの詳細を記述していない。
STPA(Systems-Theoretic Process Analysis)は、複雑なシステムがいかに危険に晒されるかを特定するための体系的な方法論である。
コントローラと制御されたプロセスのマッピングを行い、それらのインタラクションとフィードバックループを分析して、有害な結果がどのように起こるかを理解する(Leveson & Thomas, 2018)。
我々は、フロンティアAIシステムにおける、スコープを広げ、トレーサビリティを向上し、安全性保証の堅牢性を強化するSTPAの能力を評価する。
脅威モデルとシナリオにSTPAを適用して「AI制御安全事例のスケッチ(Korbak et al , 2025)」と記述し、安全でない制御行動のリストを導出する。
これらから、サブセットを選択して、未解決のままにしておけば、それにつながるロスシナリオを探索します。
その結果,STPAは非構造的ハザード解析手法によって欠落する可能性のある因果因子を同定し,ロバスト性を向上させることができることがわかった。
我々はSTPAが、機能しきい値、モデル評価、緊急処置を含む既存のAIガバナンス手法を補完したり、検査したりする際に、フロンティアAIの安全性を高めることを提案している。
体系的な方法論の適用は、LLMが実施する分析の割合を増大させることでスケーラビリティをサポートし、人間のドメインエキスパートの負担を軽減する。
関連論文リスト
- Adapting Probabilistic Risk Assessment for AI [0.0]
汎用人工知能(AI)システムは、緊急リスク管理の課題を示す。
現在の手法は、しばしば選択的なテストとリスク優先順位に関する未文書の仮定に依存します。
本稿では,AIフレームワークの確率的リスクアセスメント(PRA)を紹介する。
論文 参考訳(メタデータ) (2025-04-25T17:59:14Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - From Silos to Systems: Process-Oriented Hazard Analysis for AI Systems [2.226040060318401]
システム理論プロセス分析(STPA)をAIの操作と開発プロセスの解析に応用する。
我々は、機械学習アルゴリズムに依存したシステムと、3つのケーススタディに焦点をあてる。
私たちは、AIシステムに適したいくつかの適応があるにもかかわらず、anAを実行するための重要な概念とステップが容易に適用できることに気付きました。
論文 参考訳(メタデータ) (2024-10-29T20:43:18Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - AI Hazard Management: A framework for the systematic management of root
causes for AI risks [0.0]
本稿ではAI Hazard Management(AIHM)フレームワークを紹介する。
AIのハザードを体系的に識別し、評価し、治療するための構造化されたプロセスを提供する。
総合的な最先端分析からAIハザードリストを構築する。
論文 参考訳(メタデータ) (2023-10-25T15:55:50Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。