論文の概要: Third-party compliance reviews for frontier AI safety frameworks
- arxiv url: http://arxiv.org/abs/2505.01643v2
- Date: Fri, 04 Jul 2025 16:51:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 22:02:55.052753
- Title: Third-party compliance reviews for frontier AI safety frameworks
- Title(参考訳): サードパーティによるフロンティアAI安全フレームワークのコンプライアンスレビュー
- Authors: Aidan Homewood, Sophie Williams, Noemi Dreksler, John Lidiard, Malcolm Murray, Lennart Heim, Marta Ziosi, Seán Ó hÉigeartaigh, Michael Chen, Kevin Wei, Christoph Winter, Miles Brundage, Ben Garfinkel, Jonas Schuett,
- Abstract要約: 本稿では、サードパーティのコンプライアンスレビューという潜在的な解決策を探求する。
独立した外部当事者は、フロンティアAI会社がその安全フレームワークに準拠しているかどうかを評価する。
- 参考スコア(独自算出の注目度): 2.9934116374607083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety frameworks have emerged as a best practice for managing risks from frontier artificial intelligence (AI) systems. However, it may be difficult for stakeholders to know if companies are adhering to their frameworks. This paper explores a potential solution: third-party compliance reviews. During a third-party compliance review, an independent external party assesses whether a frontier AI company is complying with its safety framework. First, we discuss the main benefits and challenges of such reviews. On the one hand, they can increase compliance with safety frameworks and provide assurance to internal and external stakeholders. On the other hand, they can create information security risks, impose additional cost burdens, and cause reputational damage, but these challenges can be partially mitigated by drawing on best practices from other industries. Next, we answer practical questions about third-party compliance reviews, namely: (1) Who could conduct the review? (2) What information sources could the reviewer consider? (3) How could compliance with the safety framework be assessed? (4) What information about the review could be disclosed externally? (5) How could the findings guide development and deployment actions? (6) When could the reviews be conducted? For each question, we evaluate a set of plausible options. Finally, we suggest "minimalist", "more ambitious", and "comprehensive" approaches for each question that a frontier AI company could adopt.
- Abstract(参考訳): 安全フレームワークは、フロンティア人工知能(AI)システムからリスクを管理するためのベストプラクティスとして登場した。
しかし、ステークホルダーが企業が彼らのフレームワークに固執しているかどうかを知るのは難しいかもしれない。
本稿では、サードパーティのコンプライアンスレビューという潜在的な解決策を探求する。
サードパーティのコンプライアンスレビューでは、独立した外部組織が、フロンティアAI企業がその安全性フレームワークに準拠しているかどうかを評価する。
まず、このようなレビューの主な利点と課題について論じる。
一方、安全フレームワークへのコンプライアンスを高め、内部および外部の利害関係者への保証を提供することができる。
一方、情報セキュリティのリスクを生じさせ、コスト負担を増し、評判を損なうこともあるが、これらの課題は、他の産業のベストプラクティスを取り入れることで部分的に緩和できる。
次に、サードパーティのコンプライアンスレビューに関する実践的な質問に答える。
2)レビュアーはどのような情報ソースを検討できるのか?
(3)安全枠組みの遵守はどのように評価されるのか。
(4)外部に公開できるレビューの情報は何か。
(5) 研究成果はどのように開発と展開の行動を導いたか。
(6)レビューはいつ実施できるのか?
各質問に対して、妥当な選択肢のセットを評価する。
最後に、フロンティアAI企業が採用可能な各質問に対して、"ミニマリスト"、"より野心的"、"包括的"アプローチを提案する。
関連論文リスト
- Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies [57.521647436515785]
私たちはフロンティアAIの監査を、フロンティアAI開発者の安全とセキュリティに関する主張の厳格な第三者による検証として定義しています。
本稿では,AI保証レベル(AAL-1からAAL-4)について紹介する。
論文 参考訳(メタデータ) (2026-01-16T18:44:09Z) - How frontier AI companies could implement an internal audit function [0.0]
内部監査は、安全管理を強化する上で中心的な役割を果たす可能性がある。
本稿では、フロンティアAI開発者に有意義な保証を提供するために、内部監査機能を設計する方法について検討する。
論文 参考訳(メタデータ) (2025-12-16T20:36:58Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Context Reasoner: Incentivizing Reasoning Capability for Contextualized Privacy and Safety Compliance via Reinforcement Learning [53.92712851223158]
安全とプライバシの問題を文脈整合性(CI)理論に従って文脈整合性問題に定式化する。
CIフレームワークの下では、当社のモデルを3つの重要な規制基準 – EU AI ActとHIPAA – に整合させています。
我々は、安全・プライバシー基準の遵守を高めつつ、文脈推論能力を高めるためにルールベースの報酬を持つ強化学習(RL)を採用している。
論文 参考訳(メタデータ) (2025-05-20T16:40:09Z) - International Agreements on AI Safety: Review and Recommendations for a Conditional AI Safety Treaty [0.0]
GPAI(Advanced General-purpose AI)の悪意的使用や誤動作は「結婚や人類の絶滅」につながる可能性のあるリスクを引き起こす
これらのリスクに対処するため、AIの安全性に関する国際協定に関する提案が増えている。
本稿では,開発に厳格な監督を要する計算しきい値を確立する条約を提案する。
論文 参考訳(メタデータ) (2025-03-18T16:29:57Z) - AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations [5.984437476321095]
フロンティアAI企業は、事前および後安全評価の両方を報告すべきである。
両段階におけるモデルの評価は、政策立案者に、配備、アクセス、安全基準を規制するための重要な証拠を提供する。
論文 参考訳(メタデータ) (2025-03-17T17:56:43Z) - Securing External Deeper-than-black-box GPAI Evaluations [49.1574468325115]
本稿では,汎用AI(GPAI)モデルの安全かつ効果的な外部評価を行う上での課題と可能性について検討する。
サイズ、能力、到達度、付随するリスクの指数的な増加により、説明責任、安全性、および公的な信頼を保証するには、従来のブラックボックスメソッドを超えるフレームワークが必要である。
論文 参考訳(メタデータ) (2025-03-10T16:13:45Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Reasons to Doubt the Impact of AI Risk Evaluations [0.0]
本稿では、評価がAIリスクに対する理解と、そのリスクを緩和する能力を大幅に改善するかどうかを問う。
評価プラクティスの改善と、AIラボ、外部評価者、規制当局、学術研究者のための12の推奨事項を結論付けている。
論文 参考訳(メタデータ) (2024-08-05T15:42:51Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - Frontier AI developers need an internal audit function [0.2913760942403036]
記事は、フロンティア人工知能(AI)開発者は内部監査機能を必要としていると主張している。
AI研究開発の急速な進歩を踏まえ、フロンティアAI開発者はリスクガバナンスを強化する必要がある。
論文 参考訳(メタデータ) (2023-05-26T15:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。