論文の概要: Safety case template for frontier AI: A cyber inability argument
- arxiv url: http://arxiv.org/abs/2411.08088v1
- Date: Tue, 12 Nov 2024 18:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:50.724291
- Title: Safety case template for frontier AI: A cyber inability argument
- Title(参考訳): フロンティアAIのための安全ケーステンプレート:サイバー障害論
- Authors: Arthur Goemans, Marie Davidsen Buhl, Jonas Schuett, Tomek Korbak, Jessica Wang, Benjamin Hilton, Geoffrey Irving,
- Abstract要約: 攻撃的サイバー能力のための安全ケーステンプレートを提案する。
リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
- 参考スコア(独自算出の注目度): 2.2628353000034065
- License:
- Abstract: Frontier artificial intelligence (AI) systems pose increasing risks to society, making it essential for developers to provide assurances about their safety. One approach to offering such assurances is through a safety case: a structured, evidence-based argument aimed at demonstrating why the risk associated with a safety-critical system is acceptable. In this article, we propose a safety case template for offensive cyber capabilities. We illustrate how developers could argue that a model does not have capabilities posing unacceptable cyber risks by breaking down the main claim into progressively specific sub-claims, each supported by evidence. In our template, we identify a number of risk models, derive proxy tasks from the risk models, define evaluation settings for the proxy tasks, and connect those with evaluation results. Elements of current frontier safety techniques - such as risk models, proxy tasks, and capability evaluations - use implicit arguments for overall system safety. This safety case template integrates these elements using the Claims Arguments Evidence (CAE) framework in order to make safety arguments coherent and explicit. While uncertainties around the specifics remain, this template serves as a proof of concept, aiming to foster discussion on AI safety cases and advance AI assurance.
- Abstract(参考訳): 最前線の人工知能(AI)システムは社会にリスクを増大させ、開発者が安全に関する保証を提供することが不可欠である。
このような保証を提供するためのアプローチの1つは、安全ケースを通し、安全クリティカルシステムに関連するリスクが許容される理由を示すことを目的とした、構造化されたエビデンスベースの議論である。
本稿では,攻撃的サイバー能力のための安全ケーステンプレートを提案する。
開発者は、モデルが、主要な主張を徐々に特定のサブクレームに分解することで、許容できないサイバーリスクを生じさせる能力を持っていない、と主張する。
本テンプレートでは,複数のリスクモデルを特定し,リスクモデルからプロキシタスクを導出し,プロキシタスクの評価設定を定義し,評価結果を接続する。
リスクモデルやプロキシタスク、能力評価など、現在のフロンティアの安全性テクニックの要素は、システム全体の安全性に暗黙の議論を使用します。
この安全ケーステンプレートは、これらの要素をCrims Arguments Evidence (CAE)フレームワークを使用して統合し、安全引数の一貫性と明示性を実現する。
具体的な内容に関する不確実性は残っているが、このテンプレートは概念実証として機能し、AI安全ケースに関する議論の促進とAI保証の推進を目的としている。
関連論文リスト
- The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - Dynamic safety cases for frontier AI [0.7538606213726908]
本稿では, 安全ケースの初期作成と, その体系的, 半自動改定の両立を支援するための動的安全事例管理システム(DSCMS)を提案する。
攻撃的サイバー能力のための安全ケーステンプレート上でこのアプローチを実証し、安全クリティカルな意思決定のためのガバナンス構造に統合する方法を提案する。
論文 参考訳(メタデータ) (2024-12-23T14:43:41Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Affirmative safety: An approach to risk management for high-risk AI [6.133009503054252]
高いリスクを持つAIシステムを開発または展開するエンティティは、肯定的な安全性の証拠を示すために必要であるべきだ、と私たちは主張する。
本稿では,モデル開発者が一定のリスクを規制基準値以下に維持する証拠を提示しなければならない,高度なAIのためのリスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T20:48:55Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Integrating Testing and Operation-related Quantitative Evidences in
Assurance Cases to Argue Safety of Data-Driven AI/ML Components [2.064612766965483]
将来的には、AIは人間の身体に害を与える可能性のあるシステムに、ますます浸透していくだろう。
このような安全クリティカルなシステムでは、その残留リスクが許容範囲を超えないことが証明されなければならない。
本稿では,目標達成のためのより包括的な議論構造を提案する。
論文 参考訳(メタデータ) (2022-02-10T20:35:25Z) - The missing link: Developing a safety case for perception components in
automated driving [10.43163823170716]
知覚は自動運転システム(AD)の重要な側面であり、機械学習(ML)に大きく依存している。
MLベースのコンポーネントの安全性を保証するという既知の課題にもかかわらず、最近、これらのコンポーネントに対処するユニットレベルの安全ケースの提案が登場した。
本稿では、知覚成分に特化して調整されたリンク引数に対する汎用テンプレートを提案する。
論文 参考訳(メタデータ) (2021-08-30T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。