論文の概要: AIReg-Bench: Benchmarking Language Models That Assess AI Regulation Compliance
- arxiv url: http://arxiv.org/abs/2510.01474v1
- Date: Wed, 01 Oct 2025 21:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.881943
- Title: AIReg-Bench: Benchmarking Language Models That Assess AI Regulation Compliance
- Title(参考訳): AIReg-Bench: AI規制コンプライアンスを評価する言語モデルのベンチマーク
- Authors: Bill Marino, Rosco Hunter, Zubair Jamali, Marinos Emmanouil Kalpakos, Mudra Kashyap, Isaiah Hinton, Alexa Hanson, Maahum Nazir, Christoph Schnabl, Felix Steffek, Hongkai Wen, Nicholas D. Lane,
- Abstract要約: AIシステムが所定のAI規則(AIR)に準拠しているかどうかを評価するために、LLM(Large Language Models)の使用に対する関心が高まっている。
最初のベンチマークデータセットであるAIReg-Benchを紹介します。これは、LLMがEU AI Act(AIA)のコンプライアンスをどの程度うまく評価できるかをテストするために設計されたものです。
- 参考スコア(独自算出の注目度): 10.49637840194233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As governments move to regulate AI, there is growing interest in using Large Language Models (LLMs) to assess whether or not an AI system complies with a given AI Regulation (AIR). However, there is presently no way to benchmark the performance of LLMs at this task. To fill this void, we introduce AIReg-Bench: the first benchmark dataset designed to test how well LLMs can assess compliance with the EU AI Act (AIA). We created this dataset through a two-step process: (1) by prompting an LLM with carefully structured instructions, we generated 120 technical documentation excerpts (samples), each depicting a fictional, albeit plausible, AI system - of the kind an AI provider might produce to demonstrate their compliance with AIR; (2) legal experts then reviewed and annotated each sample to indicate whether, and in what way, the AI system described therein violates specific Articles of the AIA. The resulting dataset, together with our evaluation of whether frontier LLMs can reproduce the experts' compliance labels, provides a starting point to understand the opportunities and limitations of LLM-based AIR compliance assessment tools and establishes a benchmark against which subsequent LLMs can be compared. The dataset and evaluation code are available at https://github.com/camlsys/aireg-bench.
- Abstract(参考訳): 政府がAIを規制しようとするにつれ、AIシステムが所定のAI規則(AIR)に準拠しているかどうかを評価するために、Large Language Models(LLM)の使用に対する関心が高まっている。
しかし、このタスクでLLMのパフォーマンスをベンチマークする方法は今のところ存在しない。
この空白を埋めるために、私たちは、EU AI Act(AIA)に対するLLMの適合性を評価するために設計された最初のベンチマークデータセットであるAIReg-Benchを紹介します。
このデータセットは,(1)慎重に構造化された指示でLLMを誘導することにより,120の技術的資料(サンプル)を生成した。それぞれが,AIプロバイダがAIRへの準拠を示すために作成する,架空の,もっとも妥当なAIシステムである,120の技術的資料(サンプル)を作成した。
得られたデータセットは、フロンティアのLLMが専門家のコンプライアンスラベルを再現できるかどうかの評価とともに、LLMベースのAIRコンプライアンスアセスメントアセスメントツールの機会と限界を理解するための出発点を提供し、その後のLLMを比較可能なベンチマークを確立する。
データセットと評価コードはhttps://github.com/camlsys/aireg-bench.comで公開されている。
関連論文リスト
- MoRE-LLM: Mixture of Rule Experts Guided by a Large Language Model [54.14155564592936]
大規模言語モデル(MoRE-LLM)によるルールエキスパートの混合を提案する。
MoRE-LLMは、トレーニング中の局所的なルールベースのサロゲートの発見と、それらの分類タスクの利用を操縦する。
LLMはルールを修正・コンテキスト化することで、ルールのドメイン知識の整合性を高める役割を担います。
論文 参考訳(メタデータ) (2025-03-26T11:09:21Z) - Can We Trust AI Agents? A Case Study of an LLM-Based Multi-Agent System for Ethical AI [10.084913433923566]
AIベースのシステムは、多様なタスクをサポートすることによって数百万に影響を及ぼすが、誤情報、偏見、誤用といった問題に直面している。
本研究では,Large Language Models (LLM) を用いたAI倫理の実践について検討する。
エージェントがAIインシデントデータベースから現実のAI倫理問題に関する構造化された議論を行うプロトタイプを設計する。
論文 参考訳(メタデータ) (2024-10-25T20:17:59Z) - Training of Scaffolded Language Models with Language Supervision: A Survey [62.59629932720519]
本調査は,戦後のLM周辺における新規構造物の設計と最適化に関する文献を整理した。
本稿では,この階層構造を足場型LMと呼び,ツールを用いた多段階プロセスに統合されたLMに焦点を当てる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - Toward General Instruction-Following Alignment for Retrieval-Augmented Generation [63.611024451010316]
Retrieval-Augmented Generation (RAG) システムの効果的な適用には、自然な指示に従うことが不可欠である。
RAGシステムにおける命令追従アライメントのための,最初の自動化,拡張性,検証可能な合成パイプラインであるVIF-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-12T16:30:51Z) - COMPL-AI Framework: A Technical Interpretation and LLM Benchmarking Suite for the EU Artificial Intelligence Act [40.233017376716305]
EUの人工知能法(AI Act)は、AI開発の責任を負うための重要なステップである。
明確な技術的解釈がなく、モデルのコンプライアンスを評価するのが難しい。
この研究は、この法律の最初の技術的解釈からなる包括的枠組みであるComple-AIを提示する。
論文 参考訳(メタデータ) (2024-10-10T14:23:51Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as
You May Think -- Introducing AI Detectability Index [9.348082057533325]
AI生成テキスト検出(AGTD)はすでに研究で注目を集めているトピックとして現れている。
本稿では,既存のAGTD手法の脆弱性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT2)を紹介する。
論文 参考訳(メタデータ) (2023-10-08T06:20:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。