論文の概要: Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases
- arxiv url: http://arxiv.org/abs/2603.08760v1
- Date: Sun, 08 Mar 2026 16:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.729329
- Title: Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases
- Title(参考訳): AIのフロンティア・セーフティ・ケースの基礎を再考
- Authors: Shaun Feakins, Ibrahim Habli, Phillip Morgan,
- Abstract要約: 本稿では,フロンティアAIシステムの安全性に関する最近の議論に寄与する。
安全ケースは構造化されており、特定のコンテキストにおいてシステムが確実に安全にデプロイできるという防御可能な主張である。
その結果、フロンティアAIの安全性のケースが注目されている。
- 参考スコア(独自算出の注目度): 1.0170129555792935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper contributes to the nascent debate around safety cases for frontier AI systems. Safety cases are structured, defensible arguments that a system is acceptably safe to deploy in a given context. Historically, they have been used in safety-critical industries, such as aerospace, nuclear or automotive. As a result, safety cases for frontier AI have risen in prominence, both in the safety policies of leading frontier developers and in international research agendas proposed by leaders in generative AI, such as the Singapore Consensus on Global AI Safety Research Priorities and the International AI Safety Report. This paper appraises this work. We note that research conducted within the alignment community which draws explicitly on lessons from the assurance community has significant limitations. We therefore aim to rethink existing approaches to alignment safety cases. We offer lessons from existing methodologies within safety assurance and outline the limitations involved in the alignment community's current approach. Building on this foundation, we present a case study for a safety case focused on Deceptive Alignment and CBRN capabilities, drawing on existing, theoretical safety case "sketches" created by the alignment safety case community. Overall, we contribute holistic insights from the field of safety assurance via rigorous theory and methodologies that have been applied in safety-critical contexts. We do so in order to create a better foundational framework for robust, defensible and useful safety case methodologies which can help to assure the safety of frontier AI systems.
- Abstract(参考訳): 本稿では,フロンティアAIシステムの安全性に関する最近の議論に寄与する。
安全ケースは構造化されており、特定のコンテキストにおいてシステムが確実に安全にデプロイできるという防御可能な主張である。
歴史的には、航空宇宙、原子力、自動車などの安全上重要な産業で使用されている。
その結果、フロンティアAIの安全ケースは、先進的なフロンティア開発者の安全政策と、シンガポール国際AI安全研究優先条約(英語版)や国際AI安全レポート(英語版)など、ジェネレーティブAIのリーダーが提案する国際研究課題の両方において、注目されている。
この論文は、この作品を評価している。
本研究は,アライメントコミュニティにおいて,アライメントコミュニティからの教訓を明示的に取り入れた研究には,重大な制限があることに留意する。
したがって、我々は、既存の安全事例の整合化アプローチを再考することを目指している。
我々は、安全保証の既存の方法論から教訓を提供し、アライメントコミュニティの現在のアプローチにかかわる限界を概説する。
本財団を基盤として,アライメント・アライメント・アライメントとCBRN機能に着目した安全事例のケーススタディを,アライメント・アライメント・アライメント・アライメント・アライメント・ケース・コミュニティが生み出した,既存の理論上の安全事例「スケッチ」に基づいて提示する。
本研究は,安全性に批判的な文脈で適用された厳密な理論と方法論を通じて,安全保証の分野からの総合的な洞察を貢献する。
私たちは、フロンティアAIシステムの安全性を保証するのに役立つ、堅牢で、防御可能な、有用な安全ケース方法論のための、より良い基盤となるフレームワークを構築するために、そうしています。
関連論文リスト
- The BIG Argument for AI Safety Cases [4.0675753909100445]
BIGの議論は、さまざまな能力、自律性、臨界性を持つAIシステムの安全ケースを構築するためのシステム全体のアプローチを採用する。
安全性と、プライバシーや株式といった他の重要な倫理的問題に対処することでバランスがとれる。
安全保証の社会的、倫理的、技術的側面を、追跡可能で説明可能な方法でまとめることによって統合される。
論文 参考訳(メタデータ) (2025-03-12T11:33:28Z) - Safety cases for frontier AI [0.8987776881291144]
安全事例とは、ある運用状況においてシステムが十分に安全であるという証拠によって支持された構造化された議論を行う報告である。
安全ケースは、航空や原子力など他の安全上重要な産業ですでに一般的である。
業界における自己規制と政府の規制の両方において、これらがフロンティアAIガバナンスにおいて有用なツールである理由を説明します。
論文 参考訳(メタデータ) (2024-10-28T22:08:28Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark [12.660770759420286]
本稿では,単一エージェントとマルチエージェントの両方のシナリオにおいて,安全クリティカルなタスクを含む環境スイートであるSafety-Gymnasiumを提案する。
Safe Policy Optimization (SafePO) という,最先端のSafeRLアルゴリズム16種からなるアルゴリズムのライブラリを提供する。
論文 参考訳(メタデータ) (2023-10-19T08:19:28Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。