論文の概要: Reclaiming the Digital Commons: A Public Data Trust for Training Data
- arxiv url: http://arxiv.org/abs/2303.09001v1
- Date: Thu, 16 Mar 2023 00:12:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:21:55.635033
- Title: Reclaiming the Digital Commons: A Public Data Trust for Training Data
- Title(参考訳): デジタルコモンズの再生: トレーニングデータのためのパブリックデータトラスト
- Authors: Alan Chan, Herbie Bradley, Nitarshan Rajkumar
- Abstract要約: 本稿では,基礎モデルのトレーニングデータに対する公的な信頼度制御を提案する。
この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収益のパーセンテージをライセンスするべきだ。
- 参考スコア(独自算出の注目度): 2.36052383261568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Democratization of AI means not only that people can freely use AI, but also
that people can collectively decide how AI is to be used. In particular,
collective decision-making power is required to redress the negative
externalities from the development of increasingly advanced AI systems,
including degradation of the digital commons and unemployment from automation.
The rapid pace of AI development and deployment currently leaves little room
for this power. Monopolized in the hands of private corporations, the
development of the most capable foundation models has proceeded largely without
public input. There is currently no implemented mechanism for ensuring that the
economic value generated by such models is redistributed to account for their
negative externalities. The citizens that have generated the data necessary to
train models do not have input on how their data are to be used. In this work,
we propose that a public data trust assert control over training data for
foundation models. In particular, this trust should scrape the internet as a
digital commons, to license to commercial model developers for a percentage cut
of revenues from deployment. First, we argue in detail for the existence of
such a trust. We also discuss feasibility and potential risks. Second, we
detail a number of ways for a data trust to incentivize model developers to use
training data only from the trust. We propose a mix of verification mechanisms,
potential regulatory action, and positive incentives. We conclude by
highlighting other potential benefits of our proposed data trust and connecting
our work to ongoing efforts in data and compute governance.
- Abstract(参考訳): AIの民主化は、人々が自由にAIを使えるだけでなく、人々がAIをどのように使用するかを集合的に決定できることを意味している。
特に、デジタルコモンズの劣化や自動化の失業など、ますます進歩するAIシステムの開発から負の外部性を取り戻すためには、集団的な意思決定力が必要である。
AI開発とデプロイメントの急激なペースは、このパワーにはほとんど及ばない。
民間企業によって独占され、最も有能な基盤モデルの開発は、公的な入力なしに進められている。
このようなモデルによって生じる経済価値が、その負の外部性を考慮して再分配されることを保証する、実装されたメカニズムは存在しない。
モデルをトレーニングするために必要なデータを生成した市民は、データの使い方に関する入力を持っていません。
本研究では,基礎モデルのトレーニングデータに対して,公開データ信託が制御をアサートすることを提案する。
特に、この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収入のパーセンテージをライセンスするべきだ。
まず、我々はそのような信頼の存在について詳細に議論する。
また、実現可能性と潜在的なリスクについても論じる。
第二に、データトラストがモデル開発者に対して、信頼からのみトレーニングデータを使用するようにインセンティブを与える方法をいくつか詳述する。
本稿では,検証機構,潜在的規制行動,肯定的インセンティブの混合を提案する。
結論として,提案するデータ信頼の他のメリットを強調するとともに,当社の作業と,データとコンピューティングガバナンスの継続的な取り組みを結びつけることによる。
関連論文リスト
- Computing Power and the Governance of Artificial Intelligence [51.967584623262674]
政府や企業は、AIを管理する手段として計算を活用し始めている。
計算ベースのポリシーと技術は、これらの領域を補助する可能性があるが、実装の準備ができている点で大きなバリエーションがある。
プライバシーや経済的影響、権力の中央集権化といった分野において、ガバナンスの計算方法の素早い、あるいは不十分なアプローチは重大なリスクを伴います。
論文 参考訳(メタデータ) (2024-02-13T21:10:21Z) - Auditing and Generating Synthetic Data with Controllable Trust
Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - APPFLChain: A Privacy Protection Distributed Artificial-Intelligence
Architecture Based on Federated Learning and Consortium Blockchain [6.054775780656853]
APPFLChainと呼ばれる新しいシステムアーキテクチャを提案する。
これはHyperledger Fabricベースのブロックチェーンとフェデレーション学習パラダイムの統合アーキテクチャである。
我々の新しいシステムは、機密性の高い個人情報をサーバに共有する必要がないため、高いセキュリティとプライバシを維持することができる。
論文 参考訳(メタデータ) (2022-06-26T05:30:07Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - The Sanction of Authority: Promoting Public Trust in AI [4.729969944853141]
我々は、AIの公的な不信は、社会に浸透するAIの信頼性を保証する規制エコシステムの過小開発に由来すると論じている。
このモデルにおける外部監査可能なAIドキュメントの役割と、効果的であることを保証するために行うべき作業について、詳しく説明する。
論文 参考訳(メタデータ) (2021-01-22T22:01:30Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Incentives for Federated Learning: a Hypothesis Elicitation Approach [10.452709936265274]
フェデレーション学習は、分散データソースから機械学習モデルを集めるための有望なパラダイムを提供する。
信頼性のあるフェデレート学習システムの成功は、分散された自己関心のあるユーザーが積極的に参加するという前提に基づいている。
本稿では,ローカルなユーザ側機械学習モデルの真理レポートをインセンティブ化する手法を提案する。
論文 参考訳(メタデータ) (2020-07-21T04:55:31Z) - A Distributed Trust Framework for Privacy-Preserving Machine Learning [4.282091426377838]
本稿では,分散エージェント間のピアツーピア信頼を促進するために使用される分散インフラストラクチャについて概説する。
Hyperledger Aries、分散識別子(DID)、検証クレデンシャル(VC)を使用した概念実証について詳述する。
論文 参考訳(メタデータ) (2020-06-03T18:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。