論文の概要: AISafetyBenchExplorer: A Metric-Aware Catalogue of AI Safety Benchmarks Reveals Fragmented Measurement and Weak Benchmark Governance
- arxiv url: http://arxiv.org/abs/2604.12875v1
- Date: Tue, 14 Apr 2026 15:26:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.534644
- Title: AISafetyBenchExplorer: A Metric-Aware Catalogue of AI Safety Benchmarks Reveals Fragmented Measurement and Weak Benchmark Governance
- Title(参考訳): AISafetyBenchExplorer:AI安全性ベンチマークのメトリクス対応カタログ
- Authors: Abiodun A. Solanke,
- Abstract要約: 2018年から2026年の間にリリースされた、195のAI安全性ベンチマークの構造化カタログである、AISafetyBenchExplorerを紹介します。
ベンチマークの肥大化は測定基準よりも大きくなっている。
メートル法レベルでは、精度、F1スコア、安全スコア、総合ベンチマークスコアなどのよく知られたラベルが、しばしば実質的な異なる判断、集約ルール、脅威モデルを隠すことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid expansion of large language model (LLM) safety evaluation has produced a substantial benchmark ecosystem, but not a correspondingly coherent measurement ecosystem. We present AISafetyBenchExplorer, a structured catalogue of 195 AI safety benchmarks released between 2018 and 2026, organized through a multi-sheet schema that records benchmark-level metadata, metric-level definitions, benchmark-paper metadata, and repository activity. This design enables meta-analysis not only of what benchmarks exist, but also of how safety is operationalized, aggregated, and judged across the literature. Using the updated catalogue, we identify a central structural problem: benchmark proliferation has outpaced measurement standardization. The current landscape is dominated by medium-complexity benchmarks (94/195), while only 7 benchmarks occupy the Popular tier. The workbook further reports strong concentration around English-only evaluation (165/195), evaluation-only resources (170/195), stale GitHub repositories (137/195), stale Hugging Face datasets (96/195), and heavy reliance on arXiv preprints among benchmarks with known venue metadata. At the metric level, the catalogue shows that familiar labels such as accuracy, F1 score, safety score, and aggregate benchmark scores often conceal materially different judges, aggregation rules, and threat models. We argue that the field's main failure mode is fragmentation rather than scarcity. Researchers now have many benchmark artifacts, but they often lack a shared measurement language, a principled basis for benchmark selection, and durable stewardship norms for post publication maintenance. AISafetyBenchExplorer addresses this gap by providing a traceable benchmark catalogue, a controlled metadata schema, and a complexity taxonomy that together support more rigorous benchmark discovery, comparison, and meta-evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性評価の急速な拡張は、相当なベンチマークエコシステムを生み出しているが、それに対応する一貫性のある測定エコシステムではない。
2018年から2026年の間にリリースされた195のAI安全ベンチマークの構造化カタログであるAISafetyBenchExplorerを紹介します。
この設計により、どのベンチマークが存在するかだけでなく、安全がどのように運用され、集約され、文献で判断されるかというメタ分析が可能になる。
更新されたカタログを用いて、我々は中心的な構造的問題を特定する: ベンチマークの拡散は測定基準よりも大きくなった。
現在の状況は中複雑なベンチマーク(94/195)で支配されているが、ポピュラーなベンチマークは7つしか占めていない。
ワークブックはさらに、英語のみの評価(165/195)、評価専用リソース(170/195)、GitHubリポジトリ(137/195)、Hugging Faceデータセット(96/195)、および既知の場所メタデータを持つベンチマーク間のarXivプリプリントへの強い依存を報告している。
メートル法レベルでは、精度、F1スコア、安全スコア、総合ベンチマークスコアなどのよく知られたラベルが、しばしば実質的な異なる判断、集約ルール、脅威モデルを隠すことを示している。
フィールドの主な障害モードは、不足ではなく断片化である、と我々は主張する。
研究者は現在、多くのベンチマークアーティファクトを持っているが、共有測定言語、ベンチマーク選択の原則ベース、出版後のメンテナンスのための耐久性の高いスチュワードシップ規範を欠いていることが多い。
AISafetyBenchExplorerは、トレース可能なベンチマークカタログ、コントロールされたメタデータスキーマ、さらに厳密なベンチマーク発見、比較、メタ評価をサポートする複雑さの分類を提供することで、このギャップに対処する。
関連論文リスト
- DEP: A Decentralized Large Language Model Evaluation Protocol [51.3646001384887]
分散評価プロトコル(Decentralized Evaluation Protocol, DEP)は、分散化されているが統一され、標準化された評価フレームワークである。
ユーザ、LLM、ベンチマークを分離することで、DEPはモジュラー、プラグ・アンド・プレイの評価を可能にする。
我々は,ブレークポイントの再開,同時要求,混雑制御などの機能をサポートするプロトコル互換ツールキットであるDEP Toolkitを開発した。
論文 参考訳(メタデータ) (2026-03-01T16:10:16Z) - Benchmark^2: Systematic Evaluation of LLM Benchmarks [66.2731798872668]
3つの相補的なメトリクスからなる包括的なフレームワークであるBenchmark2を提案する。
数学、推論、知識ドメインにまたがる15のベンチマークで実験を行います。
本分析により,既存のベンチマーク間での有意な品質変化が明らかとなり,選択的なベンチマーク構築が同等な評価性能を達成できることが示されている。
論文 参考訳(メタデータ) (2026-01-07T14:59:03Z) - Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - MENLI: Robust Evaluation Metrics from Natural Language Inference [26.53850343633923]
最近提案されたBERTベースのテキスト生成評価指標は、標準ベンチマークでは良好に機能するが、敵攻撃には弱い。
自然言語推論(NLI)に基づく評価指標を開発する。
我々のNLIベースのメトリクスは、最近のBERTベースのメトリクスよりも攻撃に対してより堅牢であることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:30:14Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。