論文の概要: How should AI Safety Benchmarks Benchmark Safety?
- arxiv url: http://arxiv.org/abs/2601.23112v1
- Date: Fri, 30 Jan 2026 15:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.542752
- Title: How should AI Safety Benchmarks Benchmark Safety?
- Title(参考訳): AIの安全性はベンチマークの安全性をどうやってベンチマークするべきか?
- Authors: Cheng Yu, Severin Engelmann, Ruoxuan Cao, Dalia Ali, Orestis Papakyriakopoulos,
- Abstract要約: 安全ベンチマークにおける共通課題をマップする210の安全ベンチマークのレビューを行う。
我々は、確立されたリスク管理原則に従うことで、AI安全ベンチマークの有効性と有用性を大幅に向上させることができると論じる。
- 参考スコア(独自算出の注目度): 10.00492155071077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI safety benchmarks are pivotal for safety in advanced AI systems; however, they have significant technical, epistemic, and sociotechnical shortcomings. We present a review of 210 safety benchmarks that maps out common challenges in safety benchmarking, documenting failures and limitations by drawing from engineering sciences and long-established theories of risk and safety. We argue that adhering to established risk management principles, mapping the space of what can(not) be measured, developing robust probabilistic metrics, and efficiently deploying measurement theory to connect benchmarking objectives with the world can significantly improve the validity and usefulness of AI safety benchmarks. The review provides a roadmap on how to improve AI safety benchmarking, and we illustrate the effectiveness of these recommendations through quantitative and qualitative evaluation. We also introduce a checklist that can help researchers and practitioners develop robust and epistemologically sound safety benchmarks. This study advances the science of benchmarking and helps practitioners deploy AI systems more responsibly.
- Abstract(参考訳): AI安全性ベンチマークは、先進的なAIシステムの安全性にとって重要な指標である。
本稿では,安全ベンチマークの一般的な課題を210の安全ベンチマークで概説する。
我々は、確立されたリスク管理原則に固執し、測定できないことの空間をマッピングし、堅牢な確率的指標を開発し、そして、ベンチマーク目標を世界と結びつけるために測定理論を効率的に展開することで、AI安全ベンチマークの有効性と有用性を大幅に向上させることができると論じている。
このレビューは、AIの安全性ベンチマークを改善する方法についてのロードマップを提供し、定量的かつ質的な評価を通じて、これらの推奨の有効性を説明する。
我々はまた、研究者や実践者が堅牢で認識論的に健全な安全ベンチマークを開発するのに役立つチェックリストも導入する。
この研究は、ベンチマークの科学を進歩させ、実践者がより責任を持ってAIシステムをデプロイするのを助ける。
関連論文リスト
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.43113804188195]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。
SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (2026-03-02T08:16:04Z) - ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI [38.70363180741332]
ForesightSafety Bench"は、最先端AIモデルの安全性評価フレームワークである。
このベンチマークでは、数万の構造化されたリスクデータポイントと評価結果が蓄積されている。
このベンチマークに基づいて,20以上の主流大規模モデルの系統的評価と詳細な解析を行う。
論文 参考訳(メタデータ) (2026-02-15T13:12:44Z) - The Necessity of a Holistic Safety Evaluation Framework for AI-Based Automation Features [0.0]
運転自動化機能に関する機能的安全性(SOTIF)と機能的安全性(FuSa)の分析は、伝統的に、厳格な安全影響評価から品質管理(QM)コンポーネントを除外してきた。
人工知能(AI)統合の最近の進歩は、そのようなコンポーネントがSOTIF関連の有害リスクに寄与できることを明らかにしている。
本稿では、AIコンポーネントのリスクを特定し軽減するために、包括的FuSa、SOTIF、AI標準駆動手法を採用することを主張する。
論文 参考訳(メタデータ) (2026-02-05T00:22:24Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement [73.0700818105842]
我々は、AI安全のための代表的攻撃、防衛、評価方法論を統合する統合されたフレームワークとツールキットであるAISafetyLabを紹介する。
AISafetyLabには直感的なインターフェースがあり、開発者はシームレスにさまざまなテクニックを適用できる。
我々はヴィクナに関する実証的研究を行い、異なる攻撃戦略と防衛戦略を分析し、それらの比較効果に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2025-02-24T02:11:52Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。