論文の概要: Constructing Safety Cases for AI Systems: A Reusable Template Framework
- arxiv url: http://arxiv.org/abs/2601.22773v1
- Date: Fri, 30 Jan 2026 09:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.365914
- Title: Constructing Safety Cases for AI Systems: A Reusable Template Framework
- Title(参考訳): AIシステムの安全ケースを構築する: 再利用可能なテンプレートフレームワーク
- Authors: Sung Une Lee, Liming Zhu, Md Shamsujjoha, Liming Dong, Qinghua Lu, Jieshan Chen,
- Abstract要約: 安全ケース、つまりシステムが確実に安全であるという構造化された議論は、AIシステムのガバナンスの中心になりつつある。
航空や原子力工学の伝統的な安全ケースのプラクティスは、明確に定義されたシステムの境界、安定したアーキテクチャ、既知の障害モードに依存している。
本研究では、AIシステムにおける安全ケースの構築方法と、古典的アプローチがこれらのダイナミクスを捉えることができない理由について検討する。
- 参考スコア(独自算出の注目度): 10.44708664414503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety cases, structured arguments that a system is acceptably safe, are becoming central to the governance of AI systems. Yet, traditional safety-case practices from aviation or nuclear engineering rely on well-specified system boundaries, stable architectures, and known failure modes. Modern AI systems such as generative and agentic AI are the opposite. Their capabilities emerge unpredictably from low-level training objectives, their behaviour varies with prompts, and their risk profiles shift through fine-tuning, scaffolding, or deployment context. This study examines how safety cases are currently constructed for AI systems and why classical approaches fail to capture these dynamics. It then proposes a framework of reusable safety-case templates, each following a predefined structure of claims, arguments, and evidence tailored for AI systems. The framework introduces comprehensive taxonomies for AI-specific claim types (assertion-based, constrained-based, capability-based), argument types (demonstrative, comparative, causal/explanatory, risk-based, and normative), and evidence families (empirical, mechanistic, comparative, expert-driven, formal methods, operational/field data, and model-based). Each template is illustrated through end-to-end patterns addressing distinctive challenges such as evaluation without ground truth, dynamic model updates, and threshold-based risk decisions. The result is a systematic, composable, and reusable approach to constructing and maintaining safety cases that are credible, auditable, and adaptive to the evolving behaviour of generative and frontier AI systems.
- Abstract(参考訳): 安全ケース、つまりシステムが確実に安全であるという構造化された議論は、AIシステムのガバナンスの中心になりつつある。
しかし、航空や原子力工学の伝統的な安全ケースのプラクティスは、明確に定義されたシステム境界、安定したアーキテクチャ、既知の障害モードに依存している。
生成AIやエージェントAIといった現代のAIシステムは、逆である。
それらの能力は、低レベルのトレーニング目標から予測できないほど現れ、その振る舞いはプロンプトによって異なり、リスクプロファイルは微調整、足場、デプロイメントコンテキストを通じてシフトする。
本研究では、AIシステムにおける安全ケースの構築方法と、古典的アプローチがこれらのダイナミクスを捉えることができない理由について検討する。
次に、再利用可能な安全ケーステンプレートのフレームワークを提案し、それぞれがAIシステムに適したクレーム、引数、エビデンスを事前に定義した構造に従っている。
このフレームワークでは、AI固有のクレームタイプ(アサーションベース、制約ベース、能力ベース)、引数タイプ(実証型、比較型、因果/説明型、リスクベース、規範型)、エビデンスファミリー(経験型、機械型、比較型、専門家駆動型、フォーマルメソッド、運用/フィールドデータ、モデルベース)の包括的な分類を導入している。
各テンプレートは、根拠のない評価、動的モデル更新、しきい値に基づくリスク決定など、ユニークな課題に対処するエンドツーエンドパターンを通じて説明される。
その結果は、生成的およびフロンティアAIシステムの進化的振る舞いに対して信頼性、監査可能、適応性のある安全ケースの構築と維持のための、体系的、構成可能、再利用可能なアプローチである。
関連論文リスト
- AI Bill of Materials and Beyond: Systematizing Security Assurance through the AI Risk Scanning (AIRS) Framework [31.261980405052938]
人工知能(AI)システムの保証は、ソフトウェアサプライチェーンセキュリティ、敵機械学習、ガバナンスドキュメントに分散している。
本稿では,AI保証の運用を目的とした脅威モデルに基づくエビデンス発生フレームワークであるAI Risk Scanning(AIRS)フレームワークを紹介する。
論文 参考訳(メタデータ) (2025-11-16T16:10:38Z) - Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。
複雑な運用環境での安全性確保は依然として大きな課題である。
このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文 参考訳(メタデータ) (2025-06-05T15:46:25Z) - Systematic Hazard Analysis for Frontier AI using STPA [0.0]
現在、フロンティアAI企業は、ハザードを特定し分析するための構造化アプローチの詳細を記述していない。
システム理論プロセス分析(Systems-Theoretic Process Analysis)は、複雑なシステムがいかに危険に晒されるかを特定するための体系的な方法論である。
我々は、フロンティアAIシステムにおいて、スコープを広げ、トレーサビリティを向上し、安全性保証の堅牢性を強化する能力を評価する。
論文 参考訳(メタデータ) (2025-06-02T15:28:34Z) - Safety case template for frontier AI: A cyber inability argument [2.2628353000034065]
攻撃的サイバー能力のための安全ケーステンプレートを提案する。
リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
論文 参考訳(メタデータ) (2024-11-12T18:45:08Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - STEAM & MoSAFE: SOTIF Error-and-Failure Model & Analysis for AI-Enabled
Driving Automation [4.820785104084241]
本稿では、SOTIF因果モデルの改良として、STEAM(SotIF Temporal Error and Failure Model)を定義した。
第2に,システム設計モデルに基づくSTEAMのインスタンス化が可能なモデルベースSOTIF解析法(MoSAFE)を提案する。
論文 参考訳(メタデータ) (2023-12-15T06:34:35Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。