論文の概要: Safety case template for frontier AI: A cyber inability argument
- arxiv url: http://arxiv.org/abs/2411.08088v1
- Date: Tue, 12 Nov 2024 18:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:50.724291
- Title: Safety case template for frontier AI: A cyber inability argument
- Title(参考訳): フロンティアAIのための安全ケーステンプレート:サイバー障害論
- Authors: Arthur Goemans, Marie Davidsen Buhl, Jonas Schuett, Tomek Korbak, Jessica Wang, Benjamin Hilton, Geoffrey Irving,
- Abstract要約: 攻撃的サイバー能力のための安全ケーステンプレートを提案する。
リスクモデルを特定し、リスクモデルからプロキシタスクを導出し、プロキシタスクの評価設定を定義し、評価結果を結びつける。
- 参考スコア(独自算出の注目度): 2.2628353000034065
- License:
- Abstract: Frontier artificial intelligence (AI) systems pose increasing risks to society, making it essential for developers to provide assurances about their safety. One approach to offering such assurances is through a safety case: a structured, evidence-based argument aimed at demonstrating why the risk associated with a safety-critical system is acceptable. In this article, we propose a safety case template for offensive cyber capabilities. We illustrate how developers could argue that a model does not have capabilities posing unacceptable cyber risks by breaking down the main claim into progressively specific sub-claims, each supported by evidence. In our template, we identify a number of risk models, derive proxy tasks from the risk models, define evaluation settings for the proxy tasks, and connect those with evaluation results. Elements of current frontier safety techniques - such as risk models, proxy tasks, and capability evaluations - use implicit arguments for overall system safety. This safety case template integrates these elements using the Claims Arguments Evidence (CAE) framework in order to make safety arguments coherent and explicit. While uncertainties around the specifics remain, this template serves as a proof of concept, aiming to foster discussion on AI safety cases and advance AI assurance.
- Abstract(参考訳): 最前線の人工知能(AI)システムは社会にリスクを増大させ、開発者が安全に関する保証を提供することが不可欠である。
このような保証を提供するためのアプローチの1つは、安全ケースを通し、安全クリティカルシステムに関連するリスクが許容される理由を示すことを目的とした、構造化されたエビデンスベースの議論である。
本稿では,攻撃的サイバー能力のための安全ケーステンプレートを提案する。
開発者は、モデルが、主要な主張を徐々に特定のサブクレームに分解することで、許容できないサイバーリスクを生じさせる能力を持っていない、と主張する。
本テンプレートでは,複数のリスクモデルを特定し,リスクモデルからプロキシタスクを導出し,プロキシタスクの評価設定を定義し,評価結果を接続する。
リスクモデルやプロキシタスク、能力評価など、現在のフロンティアの安全性テクニックの要素は、システム全体の安全性に暗黙の議論を使用します。
この安全ケーステンプレートは、これらの要素をCrims Arguments Evidence (CAE)フレームワークを使用して統合し、安全引数の一貫性と明示性を実現する。
具体的な内容に関する不確実性は残っているが、このテンプレートは概念実証として機能し、AI安全ケースに関する議論の促進とAI保証の推進を目的としている。
関連論文リスト
- A Formal Framework for Assessing and Mitigating Emergent Security Risks in Generative AI Models: Bridging Theory and Dynamic Risk Mitigation [0.3413711585591077]
大規模言語モデル(LLM)や拡散モデルを含む生成AIシステムが急速に進歩するにつれ、その採用が増加し、新たな複雑なセキュリティリスクがもたらされた。
本稿では,これらの突発的なセキュリティリスクを分類・緩和するための新しい形式的枠組みを提案する。
我々は、潜時空間利用、マルチモーダル・クロスアタック・ベクター、フィードバックループによるモデル劣化など、未探索のリスクを特定した。
論文 参考訳(メタデータ) (2024-10-15T02:51:32Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Affirmative safety: An approach to risk management for high-risk AI [6.133009503054252]
高いリスクを持つAIシステムを開発または展開するエンティティは、肯定的な安全性の証拠を示すために必要であるべきだ、と私たちは主張する。
本稿では,モデル開発者が一定のリスクを規制基準値以下に維持する証拠を提示しなければならない,高度なAIのためのリスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T20:48:55Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - Integrating Testing and Operation-related Quantitative Evidences in
Assurance Cases to Argue Safety of Data-Driven AI/ML Components [2.064612766965483]
将来的には、AIは人間の身体に害を与える可能性のあるシステムに、ますます浸透していくだろう。
このような安全クリティカルなシステムでは、その残留リスクが許容範囲を超えないことが証明されなければならない。
本稿では,目標達成のためのより包括的な議論構造を提案する。
論文 参考訳(メタデータ) (2022-02-10T20:35:25Z) - The missing link: Developing a safety case for perception components in
automated driving [10.43163823170716]
知覚は自動運転システム(AD)の重要な側面であり、機械学習(ML)に大きく依存している。
MLベースのコンポーネントの安全性を保証するという既知の課題にもかかわらず、最近、これらのコンポーネントに対処するユニットレベルの安全ケースの提案が登場した。
本稿では、知覚成分に特化して調整されたリンク引数に対する汎用テンプレートを提案する。
論文 参考訳(メタデータ) (2021-08-30T15:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。