論文の概要: Third-party compliance reviews for frontier AI safety frameworks
- arxiv url: http://arxiv.org/abs/2505.01643v2
- Date: Fri, 04 Jul 2025 16:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 22:02:55.052753
- Title: Third-party compliance reviews for frontier AI safety frameworks
- Title(参考訳): サードパーティによるフロンティアAI安全フレームワークのコンプライアンスレビュー
- Authors: Aidan Homewood, Sophie Williams, Noemi Dreksler, John Lidiard, Malcolm Murray, Lennart Heim, Marta Ziosi, Seán Ó hÉigeartaigh, Michael Chen, Kevin Wei, Christoph Winter, Miles Brundage, Ben Garfinkel, Jonas Schuett,
- Abstract要約: 本稿では、サードパーティのコンプライアンスレビューという潜在的な解決策を探求する。
独立した外部当事者は、フロンティアAI会社がその安全フレームワークに準拠しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 2.9934116374607083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety frameworks have emerged as a best practice for managing risks from frontier artificial intelligence (AI) systems. However, it may be difficult for stakeholders to know if companies are adhering to their frameworks. This paper explores a potential solution: third-party compliance reviews. During a third-party compliance review, an independent external party assesses whether a frontier AI company is complying with its safety framework. First, we discuss the main benefits and challenges of such reviews. On the one hand, they can increase compliance with safety frameworks and provide assurance to internal and external stakeholders. On the other hand, they can create information security risks, impose additional cost burdens, and cause reputational damage, but these challenges can be partially mitigated by drawing on best practices from other industries. Next, we answer practical questions about third-party compliance reviews, namely: (1) Who could conduct the review? (2) What information sources could the reviewer consider? (3) How could compliance with the safety framework be assessed? (4) What information about the review could be disclosed externally? (5) How could the findings guide development and deployment actions? (6) When could the reviews be conducted? For each question, we evaluate a set of plausible options. Finally, we suggest "minimalist", "more ambitious", and "comprehensive" approaches for each question that a frontier AI company could adopt.
- Abstract(参考訳): 安全フレームワークは、フロンティア人工知能(AI)システムからリスクを管理するためのベストプラクティスとして登場した。
しかし、ステークホルダーが企業が彼らのフレームワークに固執しているかどうかを知るのは難しいかもしれない。
本稿では、サードパーティのコンプライアンスレビューという潜在的な解決策を探求する。
サードパーティのコンプライアンスレビューでは、独立した外部組織が、フロンティアAI企業がその安全性フレームワークに準拠しているかどうかを評価する。
まず、このようなレビューの主な利点と課題について論じる。
一方、安全フレームワークへのコンプライアンスを高め、内部および外部の利害関係者への保証を提供することができる。
一方、情報セキュリティのリスクを生じさせ、コスト負担を増し、評判を損なうこともあるが、これらの課題は、他の産業のベストプラクティスを取り入れることで部分的に緩和できる。
次に、サードパーティのコンプライアンスレビューに関する実践的な質問に答える。
2)レビュアーはどのような情報ソースを検討できるのか?
(3)安全枠組みの遵守はどのように評価されるのか。
(4)外部に公開できるレビューの情報は何か。
(5) 研究成果はどのように開発と展開の行動を導いたか。
(6)レビューはいつ実施できるのか?
各質問に対して、妥当な選択肢のセットを評価する。
最後に、フロンティアAI企業が採用可能な各質問に対して、"ミニマリスト"、"より野心的"、"包括的"アプローチを提案する。
関連論文リスト
- International Agreements on AI Safety: Review and Recommendations for a Conditional AI Safety Treaty [0.0]
GPAI(Advanced General-purpose AI)の悪意的使用や誤動作は「結婚や人類の絶滅」につながる可能性のあるリスクを引き起こす
これらのリスクに対処するため、AIの安全性に関する国際協定に関する提案が増えている。
本稿では,開発に厳格な監督を要する計算しきい値を確立する条約を提案する。
論文 参考訳(メタデータ) (2025-03-18T16:29:57Z) - AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations [5.984437476321095]
フロンティアAI企業は、事前および後安全評価の両方を報告すべきである。
両段階におけるモデルの評価は、政策立案者に、配備、アクセス、安全基準を規制するための重要な証拠を提供する。
論文 参考訳(メタデータ) (2025-03-17T17:56:43Z) - Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。
サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文 参考訳(メタデータ) (2025-03-10T16:13:45Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Reasons to Doubt the Impact of AI Risk Evaluations [0.0]
本稿では、評価がAIリスクに対する理解と、そのリスクを緩和する能力を大幅に改善するかどうかを問う。
評価プラクティスの改善と、AIラボ、外部評価者、規制当局、学術研究者のための12の推奨事項を結論付けている。
論文 参考訳(メタデータ) (2024-08-05T15:42:51Z) - Frontier AI developers need an internal audit function [0.2913760942403036]
記事は、フロンティア人工知能(AI)開発者は内部監査機能を必要としていると主張している。
AI研究開発の急速な進歩を踏まえ、フロンティアAI開発者はリスクガバナンスを強化する必要がある。
論文 参考訳(メタデータ) (2023-05-26T15:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。