論文の概要: AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems
- arxiv url: http://arxiv.org/abs/2603.09435v1
- Date: Tue, 10 Mar 2026 09:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.213907
- Title: AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems
- Title(参考訳): AI Act Evaluation Benchmark: NLPおよびRAGシステムのためのオープンで透明で再現可能な評価データセット
- Authors: Athanasios Davvetas, Michael Papademas, Xenia Ziouvelou, Vangelis Karkaletsis,
- Abstract要約: 不均一な公共および社会的セクターにおけるAIの急速な展開は、規制標準やフレームワークへのコンプライアンスの必要性を増大させてきた。
このような標準に対するAIシステムのコンプライアンスレベルを引き出すソリューションの開発は、リソース不足によって制限されることが多い。
本稿では、NLPモデルの評価を容易にするリソースを作成するための、オープンで透明で再現可能な手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid rollout of AI in heterogeneous public and societal sectors has subsequently escalated the need for compliance with regulatory standards and frameworks. The EU AI Act has emerged as a landmark in the regulatory landscape. The development of solutions that elicit the level of AI systems' compliance with such standards is often limited by the lack of resources, hindering the semi-automated or automated evaluation of their performance. This generates the need for manual work, which is often error-prone, resource-limited or limited to cases not clearly described by the regulation. This paper presents an open, transparent, and reproducible method of creating a resource that facilitates the evaluation of NLP models with a strong focus on RAG systems. We have developed a dataset that contain the tasks of risk-level classification, article retrieval, obligation generation, and question-answering for the EU AI Act. The dataset files are in a machine-to-machine appropriate format. To generate the files, we utilise domain knowledge as an exegetical basis, combining with the processing and reasoning power of large language models to generate scenarios along with the respective tasks. Our methodology demonstrates a way to harness language models for grounded generation with high document relevancy. Besides, we overcome limitations such as navigating the decision boundaries of risk-levels that are not explicitly defined within the EU AI Act, such as limited and minimal cases. Finally, we demonstrate our dataset's effectiveness by evaluating a RAG-based solution that reaches 0.87 and 0.85 F1-score for prohibited and high-risk scenarios.
- Abstract(参考訳): 異種公共部門と社会的セクターにおけるAIの急速な展開は、その後、規制標準やフレームワークへのコンプライアンスの必要性を増大させた。
EU AI法は規制のランドマークとして浮上している。
このような標準に対するAIシステムのコンプライアンスレベルを損なうソリューションの開発は、リソースの欠如によってしばしば制限され、パフォーマンスの半自動または自動評価を妨げる。
これは、しばしばエラーが発生し、リソースが制限され、規制によって明確に説明されていないケースに限られる手作業の必要性を生じさせる。
本稿では、RAGシステムに強く焦点をあてたNLPモデルの評価を容易にするリソースを作成する、オープンで透明で再現可能な手法を提案する。
我々は、リスクレベル分類、記事検索、義務生成、EU AI法に対する質問応答といったタスクを含むデータセットを開発した。
データセットファイルは、マシンからマシンまでの適切なフォーマットである。
ファイルを生成するために,大規模言語モデルの処理能力と推論能力を組み合わせて,ドメイン知識をエクセジカルベースとして利用し,各タスクのシナリオを生成する。
提案手法は,高ドキュメント関連性を有する基底生成のための言語モデルを活用する方法を示す。
さらに、制限されたケースや最小限のケースなど、EU AI法で明確に定義されていないリスクレベルの決定境界をナビゲートするといった制限を克服しています。
最後に、禁止およびリスクの高いシナリオに対して0.87と0.85F1スコアに達するRAGベースのソリューションを評価することで、データセットの有効性を実証する。
関連論文リスト
- Lost in Vagueness: Towards Context-Sensitive Standards for Robustness Assessment under the EU AI Act [2.740981829798319]
ロバストネスは、EU人工知能法(AI法)に基づくリスクの高いAIシステムにとって重要な要件である
本稿では,AIシステムが堅牢であることの意味を考察し,文脈に敏感な標準化の必要性を示す。
論文 参考訳(メタデータ) (2025-11-19T17:06:36Z) - Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。
エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。
セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文 参考訳(メタデータ) (2025-09-08T17:52:08Z) - Rethinking Data Protection in the (Generative) Artificial Intelligence Era [138.07763415496288]
現代の(生産的な)AIモデルやシステムに生じる多様な保護ニーズを捉える4段階の分類法を提案する。
当社のフレームワークは、データユーティリティとコントロールのトレードオフに関する構造化された理解を提供し、AIパイプライン全体にわたっています。
論文 参考訳(メタデータ) (2025-07-03T02:45:51Z) - Does Machine Unlearning Truly Remove Knowledge? [80.83986295685128]
本研究では,3つのベンチマークデータセット,6つのアンラーニングアルゴリズム,および5つのプロンプトベースの監査手法からなる,アンラーニング評価のための総合的な監査フレームワークを提案する。
異なるアンラーニング戦略の有効性とロバスト性を評価する。
論文 参考訳(メタデータ) (2025-05-29T09:19:07Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - How Could Generative AI Support Compliance with the EU AI Act? A Review for Safe Automated Driving Perception [4.075971633195745]
ディープニューラルネットワーク(DNN)は、自動運転車の知覚機能の中心となっている。
EU(EU)人工知能(AI)法は、AIシステムの厳格な規範と標準を確立することによって、これらの課題に対処することを目的としている。
本稿では、DNNに基づく知覚システムに関するEU AI法から生じる要件を要約し、ADにおける既存の生成AIアプリケーションを体系的に分類する。
論文 参考訳(メタデータ) (2024-08-30T12:01:06Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Towards a Responsible AI Metrics Catalogue: A Collection of Metrics for
AI Accountability [28.67753149592534]
本研究は,包括的メトリクスカタログへの取り組みを導入することで,説明責任のギャップを埋めるものである。
我々のカタログは、手続き的整合性を支えるプロセスメトリクス、必要なツールやフレームワークを提供するリソースメトリクス、AIシステムのアウトプットを反映する製品メトリクスを記述しています。
論文 参考訳(メタデータ) (2023-11-22T04:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。