論文の概要: Towards Data Governance of Frontier AI Models
- arxiv url: http://arxiv.org/abs/2412.03824v1
- Date: Thu, 05 Dec 2024 02:37:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:41:14.737493
- Title: Towards Data Governance of Frontier AI Models
- Title(参考訳): フロンティアAIモデルのデータガバナンスに向けて
- Authors: Jason Hausenloy, Duncan McClements, Madhavendra Thakur,
- Abstract要約: 私たちは、フロンティアAIモデルに対して、データが新たなガバナンス能力を実現する方法について検討する。
データは非リバルで、しばしば非排除可能で、容易に複製可能で、ますます合成可能になっている。
データサプライチェーンに沿ってキーアクターをターゲットにした一連のポリシー機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Data is essential to train and fine-tune today's frontier artificial intelligence (AI) models and to develop future ones. To date, academic, legal, and regulatory work has primarily addressed how data can directly harm consumers and creators, such as through privacy breaches, copyright infringements, and bias and discrimination. Our work, instead, focuses on the comparatively neglected question of how data can enable new governance capacities for frontier AI models. This approach for "frontier data governance" opens up new avenues for monitoring and mitigating risks from advanced AI models, particularly as they scale and acquire specific dangerous capabilities. Still, frontier data governance faces challenges that stem from the fundamental properties of data itself: data is non-rival, often non-excludable, easily replicable, and increasingly synthesizable. Despite these inherent difficulties, we propose a set of policy mechanisms targeting key actors along the data supply chain, including data producers, aggregators, model developers, and data vendors. We provide a brief overview of 15 governance mechanisms, of which we centrally introduce five, underexplored policy recommendations. These include developing canary tokens to detect unauthorized use for producers; (automated) data filtering to remove malicious content for pre-training and post-training datasets; mandatory dataset reporting requirements for developers and vendors; improved security for datasets and data generation algorithms; and know-your-customer requirements for vendors. By considering data not just as a source of potential harm, but as a critical governance lever, this work aims to equip policymakers with a new tool for the governance and regulation of frontier AI models.
- Abstract(参考訳): データは、今日のフロンティア人工知能(AI)モデルを訓練し、微調整し、将来のものを開発するために不可欠である。
これまで、学術的、法的、規制的な作業は、プライバシー侵害、著作権侵害、偏見と差別などを通じて、データがどのように消費者やクリエイターに直接害を与えるかに対処してきた。
私たちの研究は、フロンティアAIモデルの新たなガバナンス能力をどのように実現できるかという、比較的無視された疑問に焦点を当てています。
このアプローチは、高度なAIモデルからのリスクの監視と軽減のための新たな道を開く。
それでも、フロンティアのデータガバナンスは、データ自体の基本的な性質に由来する課題に直面している。
こうした固有の困難にもかかわらず、データプロデューサ、アグリゲータ、モデル開発者、データベンダーを含む、データサプライチェーンに沿った主要なアクターをターゲットにした一連のポリシーメカニズムを提案する。
我々は15のガバナンスメカニズムの概要について概説し、その中では5つの過小評価された政策勧告を中心的に紹介する。
これには、プロデューサの不正使用を検出するカナリアトークンの開発、事前トレーニングとトレーニング後のデータセットに対する悪意のあるコンテンツを削除する(自動)データフィルタリング、開発者とベンダのための必須データセットレポート要件、データセットとデータ生成アルゴリズムのセキュリティの改善、ベンダのためのノウ・ユー・カストマー要件などが含まれる。
潜在的な害の源としてだけでなく、重要なガバナンスレバーとして、この研究は政策立案者に対して、フロンティアAIモデルのガバナンスと規制のための新しいツールを提供することを目的としている。
関連論文リスト
- Generative AI for Secure and Privacy-Preserving Mobile Crowdsensing [74.58071278710896]
生成AIは、学術分野と産業分野の両方から多くの注目を集めている。
セキュアでプライバシ保護のモバイルクラウドセンシング(SPPMCS)は、データ収集/取得に広く応用されている。
論文 参考訳(メタデータ) (2024-05-17T04:00:58Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources [5.898893619901382]
分散データホルダから合成データの協調的かつプライベートな生成のためのフレームワークを提案する。
我々は信頼されたアグリゲータをセキュアなマルチパーティ計算プロトコルに置き換え、差分プライバシー(DP)を介してプライバシを出力する。
MWEM+PGMおよびAIMの最先端選択測度生成アルゴリズムに対するアプローチの適用性とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2024-02-13T17:26:32Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Reclaiming the Digital Commons: A Public Data Trust for Training Data [2.36052383261568]
本稿では,基礎モデルのトレーニングデータに対する公的な信頼度制御を提案する。
この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収益のパーセンテージをライセンスするべきだ。
論文 参考訳(メタデータ) (2023-03-16T00:12:43Z) - Secure Multiparty Computation for Synthetic Data Generation from
Distributed Data [7.370727048591523]
関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を阻害する。
既存のアプローチでは、データ保持者は信頼されたキュレーターに生データを供給し、それを合成データ生成の燃料として利用する。
本稿では,データ保持者が暗号化されたデータのみを差分プライベートな合成データ生成のために共有する,最初のソリューションを提案する。
論文 参考訳(メタデータ) (2022-10-13T20:09:17Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Privacy Preservation in Federated Learning: An insightful survey from
the GDPR Perspective [10.901568085406753]
この記事は、フェデレーテッドラーニングに使用できる最先端のプライバシー技術に関する調査に特化している。
近年の研究では、FLにおけるデータの保持と計算は、プライバシ保証者にとって不十分であることが示されている。
これは、FLシステム内のパーティ間で交換されるMLモデルパラメータが、いくつかのプライバシ攻撃で悪用されるためである。
論文 参考訳(メタデータ) (2020-11-10T21:41:25Z) - ML Privacy Meter: Aiding Regulatory Compliance by Quantifying the
Privacy Risks of Machine Learning [10.190911271176201]
機械学習モデルは、モデル予測とパラメータを通じて間接的にデータについて明らかにすることで、データにさらなるプライバシーリスクをもたらす。
モデルからのデータに対して、プライバシのリスクを定量化するツールがすぐに必要になります。
ML Privacy Meterは、アートメンバーシップ推論攻撃手法の状態を通じ、モデルからのデータに対するプライバシリスクを定量化するツールである。
論文 参考訳(メタデータ) (2020-07-18T06:21:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。