論文の概要: Safety cases for frontier AI
- arxiv url: http://arxiv.org/abs/2410.21572v1
- Date: Mon, 28 Oct 2024 22:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:41:38.467386
- Title: Safety cases for frontier AI
- Title(参考訳): フロンティアAIの安全事例
- Authors: Marie Davidsen Buhl, Gaurav Sett, Leonie Koessler, Jonas Schuett, Markus Anderljung,
- Abstract要約: 安全事例とは、ある運用状況においてシステムが十分に安全であるという証拠によって支持された構造化された議論を行う報告である。
安全ケースは、航空や原子力など他の安全上重要な産業ですでに一般的である。
業界における自己規制と政府の規制の両方において、これらがフロンティアAIガバナンスにおいて有用なツールである理由を説明します。
- 参考スコア(独自算出の注目度): 0.8987776881291144
- License:
- Abstract: As frontier artificial intelligence (AI) systems become more capable, it becomes more important that developers can explain why their systems are sufficiently safe. One way to do so is via safety cases: reports that make a structured argument, supported by evidence, that a system is safe enough in a given operational context. Safety cases are already common in other safety-critical industries such as aviation and nuclear power. In this paper, we explain why they may also be a useful tool in frontier AI governance, both in industry self-regulation and government regulation. We then discuss the practicalities of safety cases, outlining how to produce a frontier AI safety case and discussing what still needs to happen before safety cases can substantially inform decisions.
- Abstract(参考訳): 最先端の人工知能(AI)システムがより能力を持つようになると、開発者はシステムが十分に安全である理由を説明することがより重要になる。
証拠によって支持される構造化された議論を行うレポートは、ある運用状況においてシステムは十分に安全である。
安全ケースは、航空や原子力など他の安全上重要な産業ですでに一般的である。
本稿では,産業の自己規制と政府の規制の両方において,これらがフロンティアAIガバナンスにおいて有用なツールである理由を説明する。
次に、安全ケースの実用性について議論し、フロンティアAI安全ケースの作り方を説明し、安全ケースが決定を下す前にまだ必要なことについて議論する。
関連論文リスト
- Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Towards evaluations-based safety cases for AI scheming [37.399946932069746]
本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。
第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
論文 参考訳(メタデータ) (2024-10-29T17:55:29Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Affirmative safety: An approach to risk management for high-risk AI [6.133009503054252]
高いリスクを持つAIシステムを開発または展開するエンティティは、肯定的な安全性の証拠を示すために必要であるべきだ、と私たちは主張する。
本稿では,モデル開発者が一定のリスクを規制基準値以下に維持する証拠を提示しなければならない,高度なAIのためのリスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T20:48:55Z) - The Open Autonomy Safety Case Framework [3.2995359570845917]
安全ケースは、自動運転車の安全性を測定し、管理し、通信するためのベストプラクティスとなっている。
本稿では,自動運転車産業との長年の連携によって開発されたオープン・オートノミー・セーフティ・ケース・フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-04-08T12:26:06Z) - Safety Cases: How to Justify the Safety of Advanced AI Systems [5.097102520834254]
AIシステムがより高度化するにつれ、企業や規制機関は、トレーニングとデプロイが安全かどうかという難しい決定を下すことになる。
安全事例を整理する枠組みを提案し,安全性を正当化するための議論の4つのカテゴリについて論じる。
我々は、各カテゴリにおける議論の具体的な例を評価し、AIシステムが安全にデプロイ可能であることを正当化するために、議論をどのように組み合わせるかを概説する。
論文 参考訳(メタデータ) (2024-03-15T16:53:13Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - X-Risk Analysis for AI Research [24.78742908726579]
我々は、AI x-riskの分析方法のガイドを提供する。
まず、今日のシステムの安全性についてレビューする。
次に,今後のシステムの安全性に長期的影響を与える戦略について議論する。
論文 参考訳(メタデータ) (2022-06-13T00:22:50Z) - Proceedings of the Artificial Intelligence for Cyber Security (AICS)
Workshop at AAAI 2022 [55.573187938617636]
ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。
サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超えます。
論文 参考訳(メタデータ) (2022-02-28T18:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。