論文の概要: Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?
- arxiv url: http://arxiv.org/abs/2508.05464v1
- Date: Thu, 07 Aug 2025 15:03:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.916016
- Title: Bench-2-CoP: Can We Trust Benchmarking for EU AI Compliance?
- Title(参考訳): Bench-2-CoP: EU AI準拠のベンチマークを信頼できるか?
- Authors: Matteo Prandi, Vincenzo Suriani, Federico Pierucci, Marcello Galisai, Daniele Nardi, Piercosma Bisconti,
- Abstract要約: 現在のAI評価プラクティスは、確立されたベンチマークに大きく依存しています。
これらのツールは、新しい規制のランドスケープの焦点となるシステム的リスクを測定するために設計されたものではない。
この研究は、この「ベンチマーク・規制ギャップ」を定量化する緊急の必要性に対処する。
- 参考スコア(独自算出の注目度): 2.010294990327175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of General Purpose AI (GPAI) models necessitates robust evaluation frameworks, especially with emerging regulations like the EU AI Act and its associated Code of Practice (CoP). Current AI evaluation practices depend heavily on established benchmarks, but these tools were not designed to measure the systemic risks that are the focus of the new regulatory landscape. This research addresses the urgent need to quantify this "benchmark-regulation gap." We introduce Bench-2-CoP, a novel, systematic framework that uses validated LLM-as-judge analysis to map the coverage of 194,955 questions from widely-used benchmarks against the EU AI Act's taxonomy of model capabilities and propensities. Our findings reveal a profound misalignment: the evaluation ecosystem is overwhelmingly focused on a narrow set of behavioral propensities, such as "Tendency to hallucinate" (53.7% of the corpus) and "Discriminatory bias" (28.9%), while critical functional capabilities are dangerously neglected. Crucially, capabilities central to loss-of-control scenarios, including evading human oversight, self-replication, and autonomous AI development, receive zero coverage in the entire benchmark corpus. This translates to a near-total evaluation gap for systemic risks like "Loss of Control" (0.4% coverage) and "Cyber Offence" (0.8% coverage). This study provides the first comprehensive, quantitative analysis of this gap, offering critical insights for policymakers to refine the CoP and for developers to build the next generation of evaluation tools, ultimately fostering safer and more compliant AI.
- Abstract(参考訳): 汎用AI(GPAI)モデルの急速な進歩は、堅牢な評価フレームワークを必要とする。
現在のAI評価のプラクティスは確立したベンチマークに大きく依存しているが、これらのツールは、新たな規制状況の焦点となるシステム的リスクを測定するように設計されていない。
この研究は、この「ベンチマーク規制ギャップ」を定量化する緊急の必要性に対処する。
我々は、検証済みのLCM-as-judge分析を使用して、EU AI Actのモデル能力と妥当性の分類法に対して、広く使用されているベンチマークから194,955の質問をマッピングする、新しい体系的なフレームワークであるBench-2-CoPを紹介した。
評価生態系は「幻覚の傾向」(53.7%)や「差別バイアス」(28.9%)といった行動規範に圧倒的に重点を置いている一方で、重要な機能的能力は危険に無視されている。
重要なのは、人間の監視の回避、自己複製、自律型AI開発など、コントロールの喪失に中心的な能力は、ベンチマークコーパス全体のカバレッジをゼロにする。
これは、"Loss of Control" (0.4%のカバレッジ)や"Cyber Offence" (0.8%のカバレッジ)のようなシステム的リスクに対する、ほぼ完全な評価のギャップを意味する。
この研究は、このギャップを初めて包括的で定量的に分析し、政策立案者がCoPを洗練させ、開発者が次世代の評価ツールを構築するための重要な洞察を与え、最終的にはより安全でよりコンプライアンスなAIを育む。
関連論文リスト
- Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Safety Evaluation of DeepSeek Models in Chinese Contexts [12.297396865203973]
本研究では,中国固有の安全性評価ベンチマークであるCHiSafetyBenchを紹介する。
このベンチマークは、中国の文脈におけるDeepSeek-R1とDeepSeek-V3の安全性を体系的に評価する。
実験結果は、これらの2つのモデルの中国の文脈における欠陥を定量化し、その後の改善の鍵となる洞察を与える。
論文 参考訳(メタデータ) (2025-02-16T14:05:54Z) - Quantifying Security Vulnerabilities: A Metric-Driven Security Analysis of Gaps in Current AI Standards [5.388550452190688]
本稿では、NIST AI RMF 1.0、英国のAIおよびデータ保護リスクツールキット、EUのALTAIの3つの主要なAIガバナンス標準におけるセキュリティリスクの監査と定量化を行う。
新しいリスク評価手法を用いて、リスク重大度指数(RSI)、アタックポテンシャル指数(AVPI)、コンプライアンス・セキュリティギャップパーセンテージ(CSGP)、ルート原因脆弱性スコア(RCVS)の4つの主要な指標を開発する。
論文 参考訳(メタデータ) (2025-02-12T17:57:54Z) - Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation [2.2241228857601727]
本稿では,定量的なベンチマーク手法の欠点を論じる,約100の学術研究の学際的メタレビューを示す。
これは、より広範な社会技術的問題を伴うベンチマークの設計と適用において、多くのきめ細かい問題をもたらす。
レビューではまた、不正なインセンティブ、妥当性の問題の構築、未知の未知、ベンチマーク結果のゲームに関する問題など、現在のプラクティスにおける一連のシステム的欠陥についても取り上げている。
論文 参考訳(メタデータ) (2025-02-10T15:25:06Z) - Peer-induced Fairness: A Causal Approach for Algorithmic Fairness Auditing [0.0]
欧州連合の人工知能法は2024年8月1日に施行された。
リスクの高いAIアプリケーションは、厳格な透明性と公正な基準に従わなければならない。
本稿では,対実的公正性とピア比較戦略の強みを組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-08-05T15:35:34Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。