論文の概要: Generative AI and the Digital Commons
- arxiv url: http://arxiv.org/abs/2303.11074v1
- Date: Mon, 20 Mar 2023 13:01:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 15:35:53.152579
- Title: Generative AI and the Digital Commons
- Title(参考訳): ジェネレーティブAIとデジタルコモンズ
- Authors: Saffron Huang and Divya Siddarth
- Abstract要約: GFMは、公開データに基づいてトレーニングされ、パブリックインフラストラクチャを使用する。
GFMがもたらすリスクと、なぜデジタルコモンズに関係があるのかを概説する。
ガバナンスベースのソリューションを多数提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Many generative foundation models (or GFMs) are trained on publicly available
data and use public infrastructure, but 1) may degrade the "digital commons"
that they depend on, and 2) do not have processes in place to return value
captured to data producers and stakeholders. Existing conceptions of data
rights and protection (focusing largely on individually-owned data and
associated privacy concerns) and copyright or licensing-based models offer some
instructive priors, but are ill-suited for the issues that may arise from
models trained on commons-based data. We outline the risks posed by GFMs and
why they are relevant to the digital commons, and propose numerous
governance-based solutions that include investments in standardized
dataset/model disclosure and other kinds of transparency when it comes to
generative models' training and capabilities, consortia-based funding for
monitoring/standards/auditing organizations, requirements or norms for GFM
companies to contribute high quality data to the commons, and structures for
shared ownership based on individual or community provision of fine-tuning
data.
- Abstract(参考訳): 多くの生成ファンデーションモデル(GFM)は、公開データに基づいてトレーニングされており、パブリックインフラストラクチャを使用しているが、
1)依存する「デジタルコモンズ」を格下げすることができ、
2) データプロデューサや利害関係者に取得した価値を返すプロセスはありません。
データの権利と保護(主に個人所有のデータと関連するプライバシの懸念に焦点をあてる)と著作権またはライセンスベースのモデルは、いくつかの指導的な先行概念を提供するが、コモンズベースのデータに基づいてトレーニングされたモデルから生じる問題には不適である。
We outline the risks posed by GFMs and why they are relevant to the digital commons, and propose numerous governance-based solutions that include investments in standardized dataset/model disclosure and other kinds of transparency when it comes to generative models' training and capabilities, consortia-based funding for monitoring/standards/auditing organizations, requirements or norms for GFM companies to contribute high quality data to the commons, and structures for shared ownership based on individual or community provision of fine-tuning data.
関連論文リスト
- Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them? [11.040101172803727]
基礎モデルの新機能は、大部分が大規模で、広くオープンソース化され、文書化されていないトレーニングデータ収集に負っている。
既存のデータ収集の実践は、信頼性の追跡、同意の検証、プライバシーの保護、表現と偏見への対処、著作権の尊重、倫理的かつ信頼できる基礎モデルを総合的に開発するという課題に繋がった。
論文 参考訳(メタデータ) (2024-04-19T07:42:35Z) - CaPS: Collaborative and Private Synthetic Data Generation from Distributed Sources [5.898893619901382]
分散データホルダから合成データの協調的かつプライベートな生成のためのフレームワークを提案する。
我々は信頼されたアグリゲータをセキュアなマルチパーティ計算プロトコルに置き換え、差分プライバシー(DP)を介してプライバシを出力する。
MWEM+PGMおよびAIMの最先端選択測度生成アルゴリズムに対するアプローチの適用性とスケーラビリティを実証する。
論文 参考訳(メタデータ) (2024-02-13T17:26:32Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Sotto Voce: Federated Speech Recognition with Differential Privacy
Guarantees [0.761963751158349]
音声データは収集するのに高価で、情報源に非常に敏感です。
組織が独立して自身の使用のために小さなデータセットを収集している場合が多いが、マシンラーニングの要求に対してパフォーマンスが低い場合も少なくない。
しかし、明快なデータ共有は、知的財産の喪失とデータセットに存在する個人のプライバシーの喪失という点で、非常に危険なリスクを伴っている。
論文 参考訳(メタデータ) (2022-07-16T02:48:54Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Data Sharing Markets [95.13209326119153]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。
両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) (2021-07-19T06:00:34Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Preventing Unauthorized Use of Proprietary Data: Poisoning for Secure
Dataset Release [52.504589728136615]
公開したデータを最小限に修正して、他人がトレーニングモデルに乗らないようにするデータ中毒法を開発しています。
我々は,imagenet分類と顔認識によるアプローチの成功を実証する。
論文 参考訳(メタデータ) (2021-02-16T19:12:34Z) - Second layer data governance for permissioned blockchains: the privacy
management challenge [58.720142291102135]
新型コロナウイルス(COVID-19)やエボラウイルス(エボラ出血熱)のようなパンデミックの状況では、医療データを共有することに関連する行動は、大規模な感染を避け、死亡者を減らすために重要である。
この意味において、許可されたブロックチェーン技術は、スマートコントラクトが管理する不変で統一された分散データベースを通じて、データのオーナシップ、透明性、セキュリティを提供する権利をユーザに与えるために登場します。
論文 参考訳(メタデータ) (2020-10-22T13:19:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。