論文の概要: AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations
- arxiv url: http://arxiv.org/abs/2503.17388v1
- Date: Mon, 17 Mar 2025 17:56:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-30 06:39:04.521968
- Title: AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations
- Title(参考訳): AI企業は、事前および後安全評価を報告すべきである
- Authors: Dillon Bowen, Ann-Kathrin Dombrowski, Adam Gleave, Chris Cundy,
- Abstract要約: フロンティアAI企業は、事前および後安全評価の両方を報告すべきである。
両段階におけるモデルの評価は、政策立案者に、配備、アクセス、安全基準を規制するための重要な証拠を提供する。
- 参考スコア(独自算出の注目度): 5.984437476321095
- License:
- Abstract: The rapid advancement of AI systems has raised widespread concerns about potential harms of frontier AI systems and the need for responsible evaluation and oversight. In this position paper, we argue that frontier AI companies should report both pre- and post-mitigation safety evaluations to enable informed policy decisions. Evaluating models at both stages provides policymakers with essential evidence to regulate deployment, access, and safety standards. We show that relying on either in isolation can create a misleading picture of model safety. Our analysis of AI safety disclosures from leading frontier labs identifies three critical gaps: (1) companies rarely evaluate both pre- and post-mitigation versions, (2) evaluation methods lack standardization, and (3) reported results are often too vague to inform policy. To address these issues, we recommend mandatory disclosure of pre- and post-mitigation capabilities to approved government bodies, standardized evaluation methods, and minimum transparency requirements for public safety reporting. These ensure that policymakers and regulators can craft targeted safety measures, assess deployment risks, and scrutinize companies' safety claims effectively.
- Abstract(参考訳): AIシステムの急速な進歩は、フロンティアAIシステムの潜在的な害と、責任ある評価と監視の必要性に対する幅広い懸念を引き起こしている。
本稿では、フロンティアAI企業は、情報的政策決定を可能にするために、事前および後安全評価の両方を報告すべきである、と論じる。
両方の段階でモデルを評価することは、政策立案者に対して、デプロイメント、アクセス、安全基準を規制するための重要な証拠を提供する。
どちらの分離も頼りにすれば、モデル安全性の誤解を招きかねないことが示されます。
先進的なフロンティア研究所によるAI安全性開示の分析では,(1)先進と後進の両バージョンをほとんど評価せず,(2)評価方法に標準化が欠けていること,(3)報告結果が曖昧すぎて政策を通知できないこと,の3つの重要なギャップが明らかになった。
これらの課題に対処するため、我々は、承認された政府機関への事前・後処理能力の開示、標準化された評価方法、公安報告の最小透明性要件を義務付けることを推奨する。
これにより、政策立案者や規制当局は、目標とする安全対策を策定し、デプロイメントのリスクを評価し、企業の安全に関する主張を効果的に精査することができる。
関連論文リスト
- Assessing confidence in frontier AI safety cases [37.839615078345886]
安全ケースは、システムの安全性に関する最上位のクレームを支持する構造化された議論を示す。
これにより、トップレベルのクレームとどのレベルの信頼が結びつくべきかという疑問が持ち上がる。
提案手法は,AI開発者が優先し,議論の敗者に対する調査をより効率的に行う方法である。
論文 参考訳(メタデータ) (2025-02-09T06:35:11Z) - Beyond Benchmarks: On The False Promise of AI Regulation [13.125853211532196]
有効な科学的規制は、観測可能なテスト結果と将来のパフォーマンスを結びつける因果理論を必要とすることを示す。
本研究では,学習データから複雑な統計的パターンを明示的な因果関係なく学習する深層学習モデルにおいて,そのような保証を妨げていることを示す。
論文 参考訳(メタデータ) (2025-01-26T22:43:07Z) - OpenAI o1 System Card [274.83891368890977]
o1モデルシリーズは、思考の連鎖を用いて推論するために大規模な強化学習で訓練されている。
本報告では,OpenAI o1およびOpenAI o1-miniモデルに対して実施される安全作業の概要について述べる。
論文 参考訳(メタデータ) (2024-12-21T18:04:31Z) - Declare and Justify: Explicit assumptions in AI evaluations are necessary for effective regulation [2.07180164747172]
規制は、開発者が評価に関する主要な前提を明示的に識別し、正当化する必要がある、と我々は主張する。
我々は、包括的脅威モデリング、プロキシタスクの妥当性、適切な能力付与など、AI評価における中核的な仮定を特定する。
提案したアプローチは,AI開発における透明性の向上を目標とし,先進的なAIシステムのより効果的なガバナンスに向けた実践的な道筋を提供する。
論文 参考訳(メタデータ) (2024-11-19T19:13:56Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Affirmative safety: An approach to risk management for high-risk AI [6.133009503054252]
高いリスクを持つAIシステムを開発または展開するエンティティは、肯定的な安全性の証拠を示すために必要であるべきだ、と私たちは主張する。
本稿では,モデル開発者が一定のリスクを規制基準値以下に維持する証拠を提示しなければならない,高度なAIのためのリスク管理手法を提案する。
論文 参考訳(メタデータ) (2024-04-14T20:48:55Z) - A Safe Harbor for AI Evaluation and Red Teaming [124.89885800509505]
一部の研究者は、そのような研究の実施や研究成果の公表が、アカウント停止や法的報復につながることを恐れている。
我々は、主要なAI開発者が法的、技術的に安全な港を提供することを約束することを提案します。
これらのコミットメントは、ジェネレーティブAIのリスクに取り組むための、より包括的で意図しないコミュニティ努力への必要なステップである、と私たちは信じています。
論文 参考訳(メタデータ) (2024-03-07T20:55:08Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - A Counterfactual Safety Margin Perspective on the Scoring of Autonomous
Vehicles' Riskiness [52.27309191283943]
本稿では,異なるAVの行動のリスクを評価するためのデータ駆動型フレームワークを提案する。
本稿では,衝突を引き起こす可能性のある名目行動から最小限の偏差を示す,対実的安全マージンの概念を提案する。
論文 参考訳(メタデータ) (2023-08-02T09:48:08Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。