論文の概要: Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams
- arxiv url: http://arxiv.org/abs/2508.09036v1
- Date: Tue, 12 Aug 2025 15:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.489728
- Title: Can We Trust AI to Govern AI? Benchmarking LLM Performance on Privacy and AI Governance Exams
- Title(参考訳): AIをGovern AIに信頼できるか? プライバシとAIガバナンスエグゼムのLLMパフォーマンスをベンチマークする
- Authors: Zane Witherspoon, Thet Mon Aye, YingYing Hao,
- Abstract要約: オープンおよびクローズドな大言語モデル(LLM)を10種類評価する。
以上の結果から,複数のフロンティアモデルにおいて,専門家の認定基準を超えるスコアが連続的に達成されることが示唆された。
本稿では,AIの進歩と規制リスクの交差をナビゲートする専門家について概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid emergence of large language models (LLMs) has raised urgent questions across the modern workforce about this new technology's strengths, weaknesses, and capabilities. For privacy professionals, the question is whether these AI systems can provide reliable support on regulatory compliance, privacy program management, and AI governance. In this study, we evaluate ten leading open and closed LLMs, including models from OpenAI, Anthropic, Google DeepMind, Meta, and DeepSeek, by benchmarking their performance on industry-standard certification exams: CIPP/US, CIPM, CIPT, and AIGP from the International Association of Privacy Professionals (IAPP). Each model was tested using official sample exams in a closed-book setting and compared to IAPP's passing thresholds. Our findings show that several frontier models such as Gemini 2.5 Pro and OpenAI's GPT-5 consistently achieve scores exceeding the standards for professional human certification - demonstrating substantial expertise in privacy law, technical controls, and AI governance. The results highlight both the strengths and domain-specific gaps of current LLMs and offer practical insights for privacy officers, compliance leads, and technologists assessing the readiness of AI tools for high-stakes data governance roles. This paper provides an overview for professionals navigating the intersection of AI advancement and regulatory risk and establishes a machine benchmark based on human-centric evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な台頭は、この新技術の強み、弱点、能力について、現代の労働力の間で緊急の疑問を引き起こしている。
プライバシ専門家にとって問題なのは、これらのAIシステムが規制コンプライアンス、プライバシプログラム管理、AIガバナンスに対する信頼性の高いサポートを提供できるかどうかだ。
本研究では,国際プライバシ専門家協会(IAPP)のCIPP/US,CIPM,CIPT,AIGPといった業界標準認定試験において,OpenAI,Anthhropic,Google DeepMind,Meta,DeepSeekのモデルを含む,オープンでクローズドな10のLLMを評価した。
各モデルは、クローズドブック設定で公式サンプル試験を使用してテストされ、IAPPの通過しきい値と比較された。
我々の調査によると、Gemini 2.5 ProやOpenAIのGPT-5といったいくつかのフロンティアモデルが、プロフェッショナルな人間認証の基準を超えたスコアを一貫して達成している。
その結果は、現在のLLMの強みとドメイン固有のギャップの両方を強調し、プライバシ管理者、コンプライアンスリード、そして高度なデータガバナンスの役割のためのAIツールの準備性を評価する技術者に実践的な洞察を提供する。
本稿では、AIの進歩と規制リスクの交差をナビゲートする専門家の概観と、人間中心の評価に基づくマシンベンチマークの確立について述べる。
関連論文リスト
- Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies [57.521647436515785]
私たちはフロンティアAIの監査を、フロンティアAI開発者の安全とセキュリティに関する主張の厳格な第三者による検証として定義しています。
本稿では,AI保証レベル(AAL-1からAAL-4)について紹介する。
論文 参考訳(メタデータ) (2026-01-16T18:44:09Z) - Let the Barbarians In: How AI Can Accelerate Systems Performance Research [80.43506848683633]
我々は、この繰り返しサイクルを、AI駆動システム研究の生成、評価、洗練のサイクルと呼ぶ。
我々はADRSが生成するソリューションが人間の最先端の設計に適合し、さらに優れることを示した。
論文 参考訳(メタデータ) (2025-12-16T18:51:23Z) - Zero Data Retention in LLM-based Enterprise AI Assistants: A Comparative Study of Market Leading Agentic AI Products [0.12277343096128711]
データ、コンプライアンス、ビジネスプライバシのガバナンスは、特にヘルスケアや金融ビジネスにおいて重要である。
最近のAIエンタープライズAIアシスタントの出現により、ビジネス生産性が向上し、プライベートデータとコンプライアンスの保護が最優先事項となっている。
企業全体のAIアシスタントの実装により、ゼロデータ保持ポリシーを実装することで、ゼロデータ保持を実現することができる。
論文 参考訳(メタデータ) (2025-10-13T16:00:34Z) - AIReg-Bench: Benchmarking Language Models That Assess AI Regulation Compliance [10.49637840194233]
AIシステムが所定のAI規則(AIR)に準拠しているかどうかを評価するために、LLM(Large Language Models)の使用に対する関心が高まっている。
最初のベンチマークデータセットであるAIReg-Benchを紹介します。これは、LLMがEU AI Act(AIA)のコンプライアンスをどの程度うまく評価できるかをテストするために設計されたものです。
論文 参考訳(メタデータ) (2025-10-01T21:33:33Z) - Safe and Certifiable AI Systems: Concepts, Challenges, and Lessons Learned [45.44933002008943]
この白書は、T"UV AUSTRIA Trusted AIフレームワークを提示する。
エンド・ツー・エンドの監査カタログであり、機械学習システムの評価と認定のための方法論である。
セキュアなソフトウェア開発、機能要件、倫理とデータプライバシという3つの柱の上に構築されているのは、EU AI Actの高レベルの義務を、特定かつテスト可能な基準に翻訳するものです。
論文 参考訳(メタデータ) (2025-09-08T17:52:08Z) - Cognitive Kernel-Pro: A Framework for Deep Research Agents and Agent Foundation Models Training [67.895981259683]
汎用AIエージェントは、次世代人工知能の基礎となるフレームワークとして、ますます認識されている。
現在のエージェントシステムはクローズドソースか、さまざまな有料APIやプロプライエタリなツールに大きく依存している。
我々は,完全オープンソースかつ(最大限に)フリーなマルチモジュールエージェントフレームワークであるCognitive Kernel-Proを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:11:31Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Powering LLM Regulation through Data: Bridging the Gap from Compute Thresholds to Customer Experiences [0.0]
本稿では,計算レベルのしきい値と一般化モデル評価に着目した現在の規制手法は,特定のLCMベースのユーザエクスペリエンスの安全性と有効性を保証するには不十分である,と論じる。
本稿では,ユーザによる実際の体験と評価のための高品質データセットのキュレーションを中心とした認定プロセスへの移行を提案する。
論文 参考訳(メタデータ) (2025-01-12T16:20:40Z) - Who Should Run Advanced AI Evaluations -- AISIs? [0.5573180584719433]
安全研究所と政府は、先進的なAIを自ら評価するか、プライベートな評価エコシステムをサポートするか、両方を行うかを決めている。
評価は、テクノロジのリスクを理解し、管理するために必要なガバナンスツールです。
本稿は,先進的AIのどの部分を評価するべきか(i),そして(ii)先進的AIを効果的に評価するために公共機関がどの程度の能力を持つ必要があるかを知るための9つの体制から導かれる。
論文 参考訳(メタデータ) (2024-07-30T14:25:08Z) - The Ethics of Advanced AI Assistants [53.89899371095332]
本稿では,高度AIアシスタントがもたらす倫理的・社会的リスクについて論じる。
我々は、高度なAIアシスタントを自然言語インタフェースを持つ人工知能エージェントとして定義し、ユーザに代わってアクションのシーケンスを計画し実行することを目的としている。
先進的なアシスタントの社会規模での展開を考察し、協力、株式とアクセス、誤情報、経済的影響、環境、先進的なAIアシスタントの評価方法に焦点をあてる。
論文 参考訳(メタデータ) (2024-04-24T23:18:46Z) - Counter Turing Test CT^2: AI-Generated Text Detection is Not as Easy as
You May Think -- Introducing AI Detectability Index [9.348082057533325]
AI生成テキスト検出(AGTD)はすでに研究で注目を集めているトピックとして現れている。
本稿では,既存のAGTD手法の脆弱性を総合的に評価することを目的とした手法のベンチマークであるCounter Turing Test (CT2)を紹介する。
論文 参考訳(メタデータ) (2023-10-08T06:20:36Z) - Guideline for Trustworthy Artificial Intelligence -- AI Assessment
Catalog [0.0]
AIアプリケーションとそれに基づくビジネスモデルが、高品質な標準に従って開発されている場合にのみ、その潜在能力を最大限に発揮できることは明らかです。
AIアプリケーションの信頼性の問題は非常に重要であり、多くの主要な出版物の主題となっている。
このAIアセスメントカタログは、まさにこの点に対応しており、2つのターゲットグループを対象としている。
論文 参考訳(メタデータ) (2023-06-20T08:07:18Z) - Towards Fairness Certification in Artificial Intelligence [31.920661197618195]
我々は,AIフェアネス認証に必要な運用手順を定義するための最初の共同作業を提案する。
我々は、オフィシャルサービスに入る前にAIシステムが満たすべき基準と、公正な判断のためにその機能を監視するのに役立つ適合性評価手順を概観する。
論文 参考訳(メタデータ) (2021-06-04T14:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。