論文の概要: Reclaiming the Digital Commons: A Public Data Trust for Training Data
- arxiv url: http://arxiv.org/abs/2303.09001v2
- Date: Sun, 21 May 2023 23:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 03:40:09.989418
- Title: Reclaiming the Digital Commons: A Public Data Trust for Training Data
- Title(参考訳): デジタルコモンズの再生: トレーニングデータのためのパブリックデータトラスト
- Authors: Alan Chan, Herbie Bradley, Nitarshan Rajkumar
- Abstract要約: 本稿では,基礎モデルのトレーニングデータに対する公的な信頼度制御を提案する。
この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収益のパーセンテージをライセンスするべきだ。
- 参考スコア(独自算出の注目度): 2.36052383261568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Democratization of AI means not only that people can freely use AI, but also
that people can collectively decide how AI is to be used. In particular,
collective decision-making power is required to redress the negative
externalities from the development of increasingly advanced AI systems,
including degradation of the digital commons and unemployment from automation.
The rapid pace of AI development and deployment currently leaves little room
for this power. Monopolized in the hands of private corporations, the
development of the most capable foundation models has proceeded largely without
public input. There is currently no implemented mechanism for ensuring that the
economic value generated by such models is redistributed to account for their
negative externalities. The citizens that have generated the data necessary to
train models do not have input on how their data are to be used. In this work,
we propose that a public data trust assert control over training data for
foundation models. In particular, this trust should scrape the internet as a
digital commons, to license to commercial model developers for a percentage cut
of revenues from deployment. First, we argue in detail for the existence of
such a trust. We also discuss feasibility and potential risks. Second, we
detail a number of ways for a data trust to incentivize model developers to use
training data only from the trust. We propose a mix of verification mechanisms,
potential regulatory action, and positive incentives. We conclude by
highlighting other potential benefits of our proposed data trust and connecting
our work to ongoing efforts in data and compute governance.
- Abstract(参考訳): AIの民主化は、人々が自由にAIを使えるだけでなく、人々がAIをどのように使用するかを集合的に決定できることを意味している。
特に、デジタルコモンズの劣化や自動化の失業など、ますます進歩するAIシステムの開発から負の外部性を取り戻すためには、集団的な意思決定力が必要である。
AI開発とデプロイメントの急激なペースは、このパワーにはほとんど及ばない。
民間企業によって独占され、最も有能な基盤モデルの開発は、公的な入力なしに進められている。
このようなモデルによって生じる経済価値が、その負の外部性を考慮して再分配されることを保証する、実装されたメカニズムは存在しない。
モデルをトレーニングするために必要なデータを生成した市民は、データの使い方に関する入力を持っていません。
本研究では,基礎モデルのトレーニングデータに対して,公開データ信託が制御をアサートすることを提案する。
特に、この信頼は、インターネットをデジタルコモンズとして取り除き、商用モデル開発者に対して、デプロイメントからの収入のパーセンテージをライセンスするべきだ。
まず、我々はそのような信頼の存在について詳細に議論する。
また、実現可能性と潜在的なリスクについても論じる。
第二に、データトラストがモデル開発者に対して、信頼からのみトレーニングデータを使用するようにインセンティブを与える方法をいくつか詳述する。
本稿では,検証機構,潜在的規制行動,肯定的インセンティブの混合を提案する。
結論として,提案するデータ信頼の他のメリットを強調するとともに,当社の作業と,データとコンピューティングガバナンスの継続的な取り組みを結びつけることによる。
関連論文リスト
- Promoting User Data Autonomy During the Dissolution of a Monopolistic Firm [5.864623711097197]
本稿では,Conscious Data Contributionのフレームワークが,解散中におけるユーザの自律性を実現する方法を示す。
我々は、微調整と「破滅的な忘れ」の現象が、機械の非学習の一種として実際にどのように有用であるかを探求する。
論文 参考訳(メタデータ) (2024-11-20T18:55:51Z) - Decentralized Intelligence Network (DIN) [0.0]
分散インテリジェンスネットワーク(Decentralized Intelligence Network, DIN)は、AI開発における課題に対処するために設計された理論フレームワークである。
このフレームワークは、参加者がデータのコントロールを維持し、金銭的に利益を享受し、分散型でスケーラブルなエコシステムに貢献できるようにすることで、効果的なAIトレーニングをサポートする。
論文 参考訳(メタデータ) (2024-07-02T17:40:06Z) - An Economic Solution to Copyright Challenges of Generative AI [35.37023083413299]
生成人工知能システムは、新しいテキスト、画像、ビデオ、その他のメディアを生成するために訓練されている。
このようなシステムは、データコントリビュータのトレーニングに関する著作権権に侵害されるのではないか、という懸念が高まっている。
本稿では,AI生成コンテンツ作成への貢献に比例して著作権所有者を補償する枠組みを提案する。
論文 参考訳(メタデータ) (2024-04-22T08:10:38Z) - Trustless Audits without Revealing Data or Models [49.23322187919369]
モデルプロバイダが(アーキテクチャではなく)モデルウェイトとデータシークレットを維持しながら、他のパーティがモデルとデータプロパティを信頼性のない監査を行うことが可能であることを示す。
私たちはZkAuditと呼ばれるプロトコルを設計し、モデルプロバイダがデータセットとモデルの重みの暗号的コミットメントを公開します。
論文 参考訳(メタデータ) (2024-04-06T04:43:06Z) - Computing Power and the Governance of Artificial Intelligence [51.967584623262674]
政府や企業は、AIを管理する手段として計算を活用し始めている。
計算ベースのポリシーと技術は、これらの領域を補助する可能性があるが、実装の準備ができている点で大きなバリエーションがある。
プライバシーや経済的影響、権力の中央集権化といった分野において、ガバナンスの計算方法の素早い、あるいは不十分なアプローチは重大なリスクを伴います。
論文 参考訳(メタデータ) (2024-02-13T21:10:21Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Decentralized Federated Learning Preserves Model and Data Privacy [77.454688257702]
我々は、訓練されたモデル間で知識を共有することができる、完全に分散化されたアプローチを提案する。
生徒は、合成された入力データを通じて教師の出力を訓練する。
その結果,教師が学習した未学習学生モデルが,教師と同等のF1スコアに達することがわかった。
論文 参考訳(メタデータ) (2021-02-01T14:38:54Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - A Distributed Trust Framework for Privacy-Preserving Machine Learning [4.282091426377838]
本稿では,分散エージェント間のピアツーピア信頼を促進するために使用される分散インフラストラクチャについて概説する。
Hyperledger Aries、分散識別子(DID)、検証クレデンシャル(VC)を使用した概念実証について詳述する。
論文 参考訳(メタデータ) (2020-06-03T18:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。