論文の概要: Reclaiming the Digital Commons: A Public Data Trust for Training Data
- arxiv url: http://arxiv.org/abs/2303.09001v1
- Date: Thu, 16 Mar 2023 00:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:21:55.635033
- Title: Reclaiming the Digital Commons: A Public Data Trust for Training Data
- Title(参考訳): デジタルコモンズの再生: トレーニングデータのためのパブリックデータトラスト
- Authors: Alan Chan, Herbie Bradley, Nitarshan Rajkumar
- Abstract要約: 本稿では,基礎モデルのトレーニングデータに対する公的な信頼度制御を提案する。
この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収益のパーセンテージをライセンスするべきだ。
- 参考スコア(独自算出の注目度): 2.36052383261568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Democratization of AI means not only that people can freely use AI, but also
that people can collectively decide how AI is to be used. In particular,
collective decision-making power is required to redress the negative
externalities from the development of increasingly advanced AI systems,
including degradation of the digital commons and unemployment from automation.
The rapid pace of AI development and deployment currently leaves little room
for this power. Monopolized in the hands of private corporations, the
development of the most capable foundation models has proceeded largely without
public input. There is currently no implemented mechanism for ensuring that the
economic value generated by such models is redistributed to account for their
negative externalities. The citizens that have generated the data necessary to
train models do not have input on how their data are to be used. In this work,
we propose that a public data trust assert control over training data for
foundation models. In particular, this trust should scrape the internet as a
digital commons, to license to commercial model developers for a percentage cut
of revenues from deployment. First, we argue in detail for the existence of
such a trust. We also discuss feasibility and potential risks. Second, we
detail a number of ways for a data trust to incentivize model developers to use
training data only from the trust. We propose a mix of verification mechanisms,
potential regulatory action, and positive incentives. We conclude by
highlighting other potential benefits of our proposed data trust and connecting
our work to ongoing efforts in data and compute governance.
- Abstract(参考訳): AIの民主化は、人々が自由にAIを使えるだけでなく、人々がAIをどのように使用するかを集合的に決定できることを意味している。
特に、デジタルコモンズの劣化や自動化の失業など、ますます進歩するAIシステムの開発から負の外部性を取り戻すためには、集団的な意思決定力が必要である。
AI開発とデプロイメントの急激なペースは、このパワーにはほとんど及ばない。
民間企業によって独占され、最も有能な基盤モデルの開発は、公的な入力なしに進められている。
このようなモデルによって生じる経済価値が、その負の外部性を考慮して再分配されることを保証する、実装されたメカニズムは存在しない。
モデルをトレーニングするために必要なデータを生成した市民は、データの使い方に関する入力を持っていません。
本研究では,基礎モデルのトレーニングデータに対して,公開データ信託が制御をアサートすることを提案する。
特に、この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収入のパーセンテージをライセンスするべきだ。
まず、我々はそのような信頼の存在について詳細に議論する。
また、実現可能性と潜在的なリスクについても論じる。
第二に、データトラストがモデル開発者に対して、信頼からのみトレーニングデータを使用するようにインセンティブを与える方法をいくつか詳述する。
本稿では,検証機構,潜在的規制行動,肯定的インセンティブの混合を提案する。
結論として,提案するデータ信頼の他のメリットを強調するとともに,当社の作業と,データとコンピューティングガバナンスの継続的な取り組みを結びつけることによる。
関連論文リスト
- Considerations for Differentially Private Learning with Large-Scale
Public Pretraining [58.75893136929649]
大規模なWebスクレイプデータセットの使用は、差分プライバシ保存と見なすべきかどうかを疑問視する。
Webデータ上で事前訓練されたこれらのモデルを“プライベート”として公開することで、市民のプライバシーに対する信頼を意味のあるプライバシの定義として損なう可能性があることを警告します。
公的な事前学習がより普及し、強力になるにつれて、私的な学習分野への道のりを議論することで、我々は結論づける。
論文 参考訳(メタデータ) (2022-12-13T10:41:12Z) - Humble Machines: Attending to the Underappreciated Costs of Misplaced
Distrust [20.685627416074286]
我々は、AIに対する公的な不信は、誤分類される可能性があるという確固たる懸念に起因していると主張している。
我々は、AIに対する公的な信頼を回復するためには、システムは「信頼を損なう」姿勢を具現化するように設計する必要があると提案する。
論文 参考訳(メタデータ) (2022-08-02T08:24:29Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - APPFLChain: A Privacy Protection Distributed Artificial-Intelligence
Architecture Based on Federated Learning and Consortium Blockchain [6.054775780656853]
APPFLChainと呼ばれる新しいシステムアーキテクチャを提案する。
これはHyperledger Fabricベースのブロックチェーンとフェデレーション学習パラダイムの統合アーキテクチャである。
我々の新しいシステムは、機密性の高い個人情報をサーバに共有する必要がないため、高いセキュリティとプライバシを維持することができる。
論文 参考訳(メタデータ) (2022-06-26T05:30:07Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Incentives for Federated Learning: a Hypothesis Elicitation Approach [10.452709936265274]
フェデレーション学習は、分散データソースから機械学習モデルを集めるための有望なパラダイムを提供する。
信頼性のあるフェデレート学習システムの成功は、分散された自己関心のあるユーザーが積極的に参加するという前提に基づいている。
本稿では,ローカルなユーザ側機械学習モデルの真理レポートをインセンティブ化する手法を提案する。
論文 参考訳(メタデータ) (2020-07-21T04:55:31Z) - A Distributed Trust Framework for Privacy-Preserving Machine Learning [4.282091426377838]
本稿では,分散エージェント間のピアツーピア信頼を促進するために使用される分散インフラストラクチャについて概説する。
Hyperledger Aries、分散識別子(DID)、検証クレデンシャル(VC)を使用した概念実証について詳述する。
論文 参考訳(メタデータ) (2020-06-03T18:06:13Z) - Effect of Confidence and Explanation on Accuracy and Trust Calibration
in AI-Assisted Decision Making [53.62514158534574]
ケース固有のモデル情報を明らかにする特徴が、信頼度を調整し、人間とAIのジョイントパフォーマンスを向上させることができるかどうかを検討する。
信頼スコアは、AIモデルに対する人々の信頼を校正するのに役立ちますが、信頼の校正だけでは、AI支援による意思決定を改善するには不十分です。
論文 参考訳(メタデータ) (2020-01-07T15:33:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。