論文の概要: Methods to Assess the UK Government's Current Role as a Data Provider for AI
- arxiv url: http://arxiv.org/abs/2412.09632v2
- Date: Wed, 18 Dec 2024 15:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:47:22.412923
- Title: Methods to Assess the UK Government's Current Role as a Data Provider for AI
- Title(参考訳): AIのデータプロバイダとしての英国政府の現在の役割を評価する方法
- Authors: Neil Majithia, Elena Simperl,
- Abstract要約: 本稿では, 設計, 力学, 限界を詳細に解説し, 技術的報告として機能する。
ODIのWebサイトには、実験と重要な発見を要約し、それらを解釈し、英国政府がAIポリシーの設計を進めるための実用的なレコメンデーションのセットを構築するという、補完的な非技術レポートが添付されている。
- 参考スコア(独自算出の注目度): 2.9712266483979346
- License:
- Abstract: Governments typically collect and steward a vast amount of high-quality data on their citizens and institutions, and the UK government is exploring how it can better publish and provision this data to the benefit of the AI landscape. However, the compositions of generative AI training corpora remain closely guarded secrets, making the planning of data sharing initiatives difficult. To address this, we devise two methods to assess UK government data usage for the training of Large Language Models (LLMs) and 'peek behind the curtain' in order to observe the UK government's current contributions as a data provider for AI. The first method, an ablation study that utilises LLM 'unlearning', seeks to examine the importance of the information held on UK government websites for LLMs and their performance in citizen query tasks. The second method, an information leakage study, seeks to ascertain whether LLMs are aware of the information held in the datasets published on the UK government's open data initiative data.gov.uk. Our findings indicate that UK government websites are important data sources for AI (heterogenously across subject matters) while data.gov.uk is not. This paper serves as a technical report, explaining in-depth the designs, mechanics, and limitations of the above experiments. It is accompanied by a complementary non-technical report on the ODI website in which we summarise the experiments and key findings, interpret them, and build a set of actionable recommendations for the UK government to take forward as it seeks to design AI policy. While we focus on UK open government data, we believe that the methods introduced in this paper present a reproducible approach to tackle the opaqueness of AI training corpora and provide organisations a framework to evaluate and maximize their contributions to AI development.
- Abstract(参考訳): 政府は通常、市民や機関に関する大量の高品質なデータを収集し、管理する。
しかし、生成的AIトレーニングコーパスの構成は依然として秘密に守られているため、データ共有イニシアチブの計画が困難である。
これを解決するために、我々は、英国政府のAIデータプロバイダとしての現在の貢献を観察するために、Large Language Models (LLMs) と 'Peek behind the curtain' のトレーニングにおける英国政府のデータ使用量を評価する2つの方法を考案した。
LLMを'アンラーニング'に活用するアブレーション研究である第1の方法は、LLMに対する英国政府のウェブサイトに保持されている情報の重要性と、市民クエリタスクにおけるそれらのパフォーマンスについて検討することを目的としている。
第2の方法は、情報漏洩調査であり、LLMが英国政府のオープンデータイニシアチブデータ.gov.ukに公開されたデータセットに保持されている情報を認識しているかどうかを確認することを目的としている。
我々の発見は、英国政府のウェブサイトがAIの重要なデータソースであることを示しているが、 data.gov.ukはそうではない。
本稿では, 設計, 力学, 限界を詳細に解説し, 技術的報告として機能する。
ODIのWebサイトには、実験と重要な発見を要約し、それらを解釈し、英国政府がAIポリシーの設計を進めるための実用的なレコメンデーションのセットを構築するという、補完的な非技術レポートが添付されている。
本稿では、英国政府のオープンなデータに注目しながら、AIトレーニングコーパスの不透明さに対処するための再現可能なアプローチを提案し、組織にAI開発への貢献を評価し、最大化するためのフレームワークを提供すると信じている。
関連論文リスト
- Do Responsible AI Artifacts Advance Stakeholder Goals? Four Key Barriers Perceived by Legal and Civil Stakeholders [59.17981603969404]
責任あるAI(RAI)コミュニティは、透明性を促進し、AIシステムのガバナンスをサポートするために、多数のプロセスとアーティファクトを導入している。
我々は、責任あるAI活動に関する政策と擁護を通知する19の政府、法律、市民社会の利害関係者と半構造化されたインタビューを行う。
我々は、これらの信念を4つの障壁にまとめて、RAIアーティファクトが(必然的に)市民社会、政府、産業間での権力関係を再構成する方法を説明する。
論文 参考訳(メタデータ) (2024-08-22T00:14:37Z) - Future and AI-Ready Data Strategies: Response to DOC RFI on AI and Open Government Data Assets [6.659894897434807]
以下は、AIとOpen Government Data Assetsに関する米国商務省の情報要求(RFI)に対する回答である。
当社は、組織やデータの共有に関する公的洞察を求める取り組みについて、省に感謝する。
弊社の回答では、AIと商務省のOpen Government Data Assetsに対するベストプラクティスと重要な考察を概説する。
論文 参考訳(メタデータ) (2024-07-26T07:31:32Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Federated Learning Priorities Under the European Union Artificial
Intelligence Act [68.44894319552114]
我々は、AI法がフェデレートラーニングに与える影響について、第一種学際分析(法とML)を行う。
データガバナンスの問題とプライバシに関する懸念について検討する。
最も注目すべきは、データのバイアスを防御し、プライベートでセキュアな計算を強化する機会である。
論文 参考訳(メタデータ) (2024-02-05T19:52:19Z) - Trust, Accountability, and Autonomy in Knowledge Graph-based AI for
Self-determination [1.4305544869388402]
知識グラフ(KG)は、インテリジェントな意思決定を支えるための基盤として登場した。
KGと神経学習の統合は、現在活発な研究のトピックである。
本稿では,KGベースのAIによる自己決定を支援するための基礎的なトピックと研究の柱を概念化する。
論文 参考訳(メタデータ) (2023-10-30T12:51:52Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Explainable Patterns: Going from Findings to Insights to Support Data
Analytics Democratization [60.18814584837969]
我々は,データストーリテリングの探索と作成において,レイユーザをサポートする新しいフレームワークであるExplainable Patterns (ExPatt)を提示する。
ExPattは、外部(テキスト)の情報ソースを使用して、観察または選択された発見の実用的な説明を自動的に生成します。
論文 参考訳(メタデータ) (2021-01-19T16:13:44Z) - AI Governance for Businesses [2.072259480917207]
データを有効に活用し、AI関連のコストとリスクを最小限にすることで、AIを活用することを目指している。
この作業では、AIプロダクトをシステムとみなし、機械学習(ML)モデルによって(トレーニング)データを活用する重要な機能が提供される。
我々のフレームワークは、AIガバナンスを4次元に沿ってデータガバナンス、(ML)モデル、(AI)システムに分解します。
論文 参考訳(メタデータ) (2020-11-20T22:31:37Z) - Montreal AI Ethics Institute's Response to Scotland's AI Strategy [0.0]
2020年1月と2月、スコットランド政府は人工知能(AI)戦略に関する2つの文書を公開した。
モントリオールAI倫理研究所(MAIEI)はこれらの文書をレビューし、2020年6月4日に回答を発表した。
論文 参考訳(メタデータ) (2020-06-11T10:08:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。