論文の概要: How should AI Safety Benchmarks Benchmark Safety?
- arxiv url: http://arxiv.org/abs/2601.23112v1
- Date: Fri, 30 Jan 2026 15:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.542752
- Title: How should AI Safety Benchmarks Benchmark Safety?
- Title(参考訳): AIの安全性はベンチマークの安全性をどうやってベンチマークするべきか?
- Authors: Cheng Yu, Severin Engelmann, Ruoxuan Cao, Dalia Ali, Orestis Papakyriakopoulos,
- Abstract要約: 安全ベンチマークにおける共通課題をマップする210の安全ベンチマークのレビューを行う。
我々は、確立されたリスク管理原則に従うことで、AI安全ベンチマークの有効性と有用性を大幅に向上させることができると論じる。
- 参考スコア(独自算出の注目度): 10.00492155071077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety benchmarks are pivotal for safety in advanced AI systems; however, they have significant technical, epistemic, and sociotechnical shortcomings. We present a review of 210 safety benchmarks that maps out common challenges in safety benchmarking, documenting failures and limitations by drawing from engineering sciences and long-established theories of risk and safety. We argue that adhering to established risk management principles, mapping the space of what can(not) be measured, developing robust probabilistic metrics, and efficiently deploying measurement theory to connect benchmarking objectives with the world can significantly improve the validity and usefulness of AI safety benchmarks. The review provides a roadmap on how to improve AI safety benchmarking, and we illustrate the effectiveness of these recommendations through quantitative and qualitative evaluation. We also introduce a checklist that can help researchers and practitioners develop robust and epistemologically sound safety benchmarks. This study advances the science of benchmarking and helps practitioners deploy AI systems more responsibly.
- Abstract(参考訳): AI安全性ベンチマークは、先進的なAIシステムの安全性にとって重要な指標である。
本稿では,安全ベンチマークの一般的な課題を210の安全ベンチマークで概説する。
我々は、確立されたリスク管理原則に固執し、測定できないことの空間をマッピングし、堅牢な確率的指標を開発し、そして、ベンチマーク目標を世界と結びつけるために測定理論を効率的に展開することで、AI安全ベンチマークの有効性と有用性を大幅に向上させることができると論じている。
このレビューは、AIの安全性ベンチマークを改善する方法についてのロードマップを提供し、定量的かつ質的な評価を通じて、これらの推奨の有効性を説明する。
我々はまた、研究者や実践者が堅牢で認識論的に健全な安全ベンチマークを開発するのに役立つチェックリストも導入する。
この研究は、ベンチマークの科学を進歩させ、実践者がより責任を持ってAIシステムをデプロイするのを助ける。
関連論文リスト
- Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。