論文の概要: Dynamic safety cases for frontier AI
- arxiv url: http://arxiv.org/abs/2412.17618v1
- Date: Mon, 23 Dec 2024 14:43:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:53:00.408751
- Title: Dynamic safety cases for frontier AI
- Title(参考訳): フロンティアAIの動的安全事例
- Authors: Carmen Cârlan, Francesca Gomez, Yohan Mathew, Ketana Krishna, René King, Peter Gebauer, Ben R. Smith,
- Abstract要約: 本稿では, 安全ケースの初期作成と, その体系的, 半自動改定の両立を支援するための動的安全事例管理システム(DSCMS)を提案する。
攻撃的サイバー能力のための安全ケーステンプレート上でこのアプローチを実証し、安全クリティカルな意思決定のためのガバナンス構造に統合する方法を提案する。
- 参考スコア(独自算出の注目度): 0.7538606213726908
- License:
- Abstract: Frontier artificial intelligence (AI) systems present both benefits and risks to society. Safety cases - structured arguments supported by evidence - are one way to help ensure the safe development and deployment of these systems. Yet the evolving nature of AI capabilities, as well as changes in the operational environment and understanding of risk, necessitates mechanisms for continuously updating these safety cases. Typically, in other sectors, safety cases are produced pre-deployment and do not require frequent updates post-deployment, which can be a manual, costly process. This paper proposes a Dynamic Safety Case Management System (DSCMS) to support both the initial creation of a safety case and its systematic, semi-automated revision over time. Drawing on methods developed in the autonomous vehicles (AV) sector - state-of-the-art Checkable Safety Arguments (CSA) combined with Safety Performance Indicators (SPIs) recommended by UL 4600, a DSCMS helps developers maintain alignment between system safety claims and the latest system state. We demonstrate this approach on a safety case template for offensive cyber capabilities and suggest ways it can be integrated into governance structures for safety-critical decision-making. While the correctness of the initial safety argument remains paramount - particularly for high-severity risks - a DSCMS provides a framework for adapting to new insights and strengthening incident response. We outline challenges and further work towards development and implementation of this approach as part of continuous safety assurance of frontier AI systems.
- Abstract(参考訳): 最前線人工知能(AI)システムは社会に利益とリスクをもたらす。
安全なケース — 証拠によって支持される構造化された議論 — は、これらのシステムの安全な開発とデプロイを保証する方法のひとつです。
しかし、AI能力の進化する性質と、運用環境の変化、リスクの理解は、これらの安全ケースを継続的に更新するメカニズムを必要とします。
他のセクターでは、安全ケースはデプロイ前で作成され、デプロイ後の頻繁な更新を必要としない。
本稿では, 安全ケースの初期作成と, その体系的, 半自動改定の両立を支援するための動的安全事例管理システム(DSCMS)を提案する。
UL 4600が推奨する安全性能指標(SPI)と組み合わさって、自律走行車(AV)部門で開発された手法に基づいて、DSCMSは、システム安全要求と最新のシステム状態の整合性を維持するのに役立つ。
攻撃的サイバー能力のための安全ケーステンプレート上でこのアプローチを実証し、安全クリティカルな意思決定のためのガバナンス構造に統合する方法を提案する。
DSCMSは、新しい洞察に適応し、インシデント対応を強化するためのフレームワークを提供する。
我々は、フロンティアAIシステムの継続的な安全性保証の一環として、この問題の概要と、このアプローチの開発と実装に向けたさらなる取り組みについて述べる。
関連論文リスト
- Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - The Open Autonomy Safety Case Framework [3.2995359570845917]
安全ケースは、自動運転車の安全性を測定し、管理し、通信するためのベストプラクティスとなっている。
本稿では,自動運転車産業との長年の連携によって開発されたオープン・オートノミー・セーフティ・ケース・フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-04-08T12:26:06Z) - ACCESS: Assurance Case Centric Engineering of Safety-critical Systems [9.388301205192082]
保証ケースは、安全性やセキュリティなどの重要なシステム特性について、コミュニケーションし、信頼性を評価するために使用されます。
近年,システム保証活動の効率化と品質向上のために,モデルに基づくシステム保証アプローチが普及している。
モデルに基づくシステム保証ケースが異種工学的アーティファクトにどのように辿り着くかを示す。
論文 参考訳(メタデータ) (2024-03-22T14:29:50Z) - Deep Learning Safety Concerns in Automated Driving Perception [43.026485214492105]
本稿では、クロスファンクショナルなチームが共同で関心事に対処できるようにするとともに、理解を深めるための追加の分類を紹介します。
近年のディープラーニング分野の進歩と認識のためのディープニューラルネットワーク(DNN)の性能向上により、自動走行(AD)システムへの需要が高まっている。
論文 参考訳(メタデータ) (2023-09-07T15:25:47Z) - Leveraging Traceability to Integrate Safety Analysis Artifacts into the
Software Development Process [51.42800587382228]
安全保証ケース(SAC)は、システムの進化中に維持することが困難である。
本稿では,ソフトウェアトレーサビリティを活用して,関連するシステムアーチファクトを安全解析モデルに接続する手法を提案する。
安全ステークホルダーがシステム変更が安全性に与える影響を分析するのに役立つように、システム変更の合理性を設計する。
論文 参考訳(メタデータ) (2023-07-14T16:03:27Z) - Sustainable Adaptive Security [11.574868434725117]
本稿では,新たに発見された脅威を軽減し,適応型セキュリティシステムの拡張による永続的保護を反映したサステナブル・アダプティブ・セキュリティ(SAS)の概念を提案する。
私たちはスマートホームの例を使って、持続可能な適応セキュリティを満たすシステムのMAPE(Monitor, Analysis, Planning, Execution)ループのアクティビティをどのように構築できるかを示します。
論文 参考訳(メタデータ) (2023-06-05T08:48:36Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。