論文の概要: Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams
- arxiv url: http://arxiv.org/abs/2508.09036v1
- Date: Tue, 12 Aug 2025 15:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.489728
- Title: Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams
- Title(参考訳): AIをGovern AIに信頼できるか? プライバシとAIガバナンスエグゼムのLLMパフォーマンスをベンチマークする
- Authors: Zane Witherspoon, Thet Mon Aye, YingYing Hao,
- Abstract要約: オープンおよびクローズドな大言語モデル(LLM)を10種類評価する。
以上の結果から,複数のフロンティアモデルにおいて,専門家の認定基準を超えるスコアが連続的に達成されることが示唆された。
本稿では,AIの進歩と規制リスクの交差をナビゲートする専門家について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid emergence of large language models (LLMs) has raised urgent questions across the modern workforce about this new technology's strengths, weaknesses, and capabilities. For privacy professionals, the question is whether these AI systems can provide reliable support on regulatory compliance, privacy program management, and AI governance. In this study, we evaluate ten leading open and closed LLMs, including models from OpenAI, Anthropic, Google DeepMind, Meta, and DeepSeek, by benchmarking their performance on industry-standard certification exams: CIPP/US, CIPM, CIPT, and AIGP from the International Association of Privacy Professionals (IAPP). Each model was tested using official sample exams in a closed-book setting and compared to IAPP's passing thresholds. Our findings show that several frontier models such as Gemini 2.5 Pro and OpenAI's GPT-5 consistently achieve scores exceeding the standards for professional human certification - demonstrating substantial expertise in privacy law, technical controls, and AI governance. The results highlight both the strengths and domain-specific gaps of current LLMs and offer practical insights for privacy officers, compliance leads, and technologists assessing the readiness of AI tools for high-stakes data governance roles. This paper provides an overview for professionals navigating the intersection of AI advancement and regulatory risk and establishes a machine benchmark based on human-centric evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な台頭は、この新技術の強み、弱点、能力について、現代の労働力の間で緊急の疑問を引き起こしている。
プライバシ専門家にとって問題なのは、これらのAIシステムが規制コンプライアンス、プライバシプログラム管理、AIガバナンスに対する信頼性の高いサポートを提供できるかどうかだ。
本研究では,国際プライバシ専門家協会(IAPP)のCIPP/US,CIPM,CIPT,AIGPといった業界標準認定試験において,OpenAI,Anthhropic,Google DeepMind,Meta,DeepSeekのモデルを含む,オープンでクローズドな10のLLMを評価した。
各モデルは、クローズドブック設定で公式サンプル試験を使用してテストされ、IAPPの通過しきい値と比較された。
我々の調査によると、Gemini 2.5 ProやOpenAIのGPT-5といったいくつかのフロンティアモデルが、プロフェッショナルな人間認証の基準を超えたスコアを一貫して達成している。
その結果は、現在のLLMの強みとドメイン固有のギャップの両方を強調し、プライバシ管理者、コンプライアンスリード、そして高度なデータガバナンスの役割のためのAIツールの準備性を評価する技術者に実践的な洞察を提供する。
本稿では、AIの進歩と規制リスクの交差をナビゲートする専門家の概観と、人間中心の評価に基づくマシンベンチマークの確立について述べる。
関連論文リスト
- Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Powering LLM Regulation through Data: Bridging the Gap from Compute Thresholds to Customer Experiences [0.0]
本稿では,計算レベルのしきい値と一般化モデル評価に着目した現在の規制手法は,特定のLCMベースのユーザエクスペリエンスの安全性と有効性を保証するには不十分である,と論じる。
本稿では,ユーザによる実際の体験と評価のための高品質データセットのキュレーションを中心とした認定プロセスへの移行を提案する。
論文 参考訳(メタデータ) (2025-01-12T16:20:40Z) - Who Should Run Advanced AI Evaluations -- AISIs? [0.5573180584719433]
安全研究所と政府は、先進的なAIを自ら評価するか、プライベートな評価エコシステムをサポートするか、両方を行うかを決めている。
評価は、テクノロジのリスクを理解し、管理するために必要なガバナンスツールです。
本稿は,先進的AIのどの部分を評価するべきか(i),そして(ii)先進的AIを効果的に評価するために公共機関がどの程度の能力を持つ必要があるかを知るための9つの体制から導かれる。
論文 参考訳(メタデータ) (2024-07-30T14:25:08Z) - The Ethics of Advanced AI Assistants [53.89899371095332]
本稿では,高度AIアシスタントがもたらす倫理的・社会的リスクについて論じる。
我々は、高度なAIアシスタントを自然言語インタフェースを持つ人工知能エージェントとして定義し、ユーザに代わってアクションのシーケンスを計画し実行することを目的としている。
先進的なアシスタントの社会規模での展開を考察し、協力、株式とアクセス、誤情報、経済的影響、環境、先進的なAIアシスタントの評価方法に焦点をあてる。
論文 参考訳(メタデータ) (2024-04-24T23:18:46Z) - Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as
You May Think -- Introducing AI Detectability Index [9.348082057533325]
AI生成テキスト検出(AGTD)はすでに研究で注目を集めているトピックとして現れている。
本稿では,既存のAGTD手法の脆弱性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT2)を紹介する。
論文 参考訳(メタデータ) (2023-10-08T06:20:36Z) - Guideline for Trustworthy Artificial Intelligence -- AI Assessment
Catalog [0.0]
AIアプリケーションとそれに基づくビジネスモデルが、高品質な標準に従って開発されている場合にのみ、その潜在能力を最大限に発揮できることは明らかです。
AIアプリケーションの信頼性の問題は非常に重要であり、多くの主要な出版物の主題となっている。
このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。
論文 参考訳(メタデータ) (2023-06-20T08:07:18Z) - Towards Fairness Certification in Artificial Intelligence [31.920661197618195]
我々は,AIフェアネス認証に必要な運用手順を定義するための最初の共同作業を提案する。
我々は、オフィシャルサービスに入る前にAIシステムが満たすべき基準と、公正な判断のためにその機能を監視するのに役立つ適合性評価手順を概観する。
論文 参考訳(メタデータ) (2021-06-04T14:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。