論文の概要: Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them?
- arxiv url: http://arxiv.org/abs/2404.12691v1
- Date: Fri, 19 Apr 2024 07:42:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:55:43.266510
- Title: Data Authenticity, Consent, & Provenance for AI are all broken: what will it take to fix them?
- Title(参考訳): データ認証、Consent、そしてAIの保証はすべて壊れている。
- Authors: Shayne Longpre, Robert Mahari, Naana Obeng-Marnu, William Brannon, Tobin South, Katy Gero, Sandy Pentland, Jad Kabbara,
- Abstract要約: 基礎モデルの新機能は、大部分が大規模で、広くオープンソース化され、文書化されていないトレーニングデータ収集に負っている。
データ収集における既存のプラクティスは、データの透明性の文書化、信頼性のトレース、同意の検証、プライバシー、表現、バイアス、著作権侵害といった課題を引き起こしている。
- 参考スコア(独自算出の注目度): 11.040101172803727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: New capabilities in foundation models are owed in large part to massive, widely-sourced, and under-documented training data collections. Existing practices in data collection have led to challenges in documenting data transparency, tracing authenticity, verifying consent, privacy, representation, bias, copyright infringement, and the overall development of ethical and trustworthy foundation models. In response, regulation is emphasizing the need for training data transparency to understand foundation models' limitations. Based on a large-scale analysis of the foundation model training data landscape and existing solutions, we identify the missing infrastructure to facilitate responsible foundation model development practices. We examine the current shortcomings of common tools for tracing data authenticity, consent, and documentation, and outline how policymakers, developers, and data creators can facilitate responsible foundation model development by adopting universal data provenance standards.
- Abstract(参考訳): 基礎モデルの新機能は、大部分が大規模で、広くオープンソース化され、文書化されていないトレーニングデータ収集に負っている。
データ収集における既存のプラクティスは、データの透明性の文書化、信頼性のトレース、同意の検証、プライバシー、表現、バイアス、著作権侵害、倫理的かつ信頼できる基礎モデルの全体的開発といった課題を引き起こしている。
これに応えて、規制は基礎モデルの制限を理解するためにデータの透明性を訓練する必要性を強調している。
基礎モデルトレーニングデータランドスケープと既存のソリューションを大規模に分析した結果,基盤モデル開発に責任を負う上で欠落するインフラストラクチャを特定した。
我々は、データの信頼性、同意、ドキュメントをトレースする一般的なツールの現在の欠点について検討し、政策立案者、開発者、データ作成者が、普遍的なデータ証明標準を採用することにより、責任ある基礎モデル開発を促進する方法について概説する。
関連論文リスト
- The Responsible Foundation Model Development Cheatsheet: A Review of Tools & Resources [100.23208165760114]
ファンデーションモデル開発は、急速に成長するコントリビュータ、科学者、アプリケーションを引き付けている。
責任ある開発プラクティスを形成するために、我々はFoundation Model Development Cheatsheetを紹介します。
論文 参考訳(メタデータ) (2024-06-24T15:55:49Z) - Trustless Audits without Revealing Data or Models [49.23322187919369]
モデルプロバイダが(アーキテクチャではなく)モデルウェイトとデータシークレットを維持しながら、他のパーティがモデルとデータプロパティを信頼性のない監査を行うことが可能であることを示す。
私たちはZkAuditと呼ばれるプロトコルを設計し、モデルプロバイダがデータセットとモデルの重みの暗号的コミットメントを公開します。
論文 参考訳(メタデータ) (2024-04-06T04:43:06Z) - Generative Models are Self-Watermarked: Declaring Model Authentication
through Re-Generation [17.88043926057354]
データオーナシップの検証は、特に生成したデータの不正な再利用の場合、非常に困難な問題を引き起こします。
私たちの研究は、個々のサンプルからでもデータの再利用を検出することに集中しています。
本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。
論文 参考訳(メタデータ) (2024-02-23T10:48:21Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - On the Opportunities and Risks of Foundation Models [256.61956234436553]
これらのモデルの基礎モデルは、批判的に中心的だが不完全な性格を根底から立証するものです。
本報告では,基礎モデルの可能性とリスクについて概説する。
これらの疑問に対処するためには、基礎モデルに関する重要な研究の多くは、深い学際的なコラボレーションが必要であると信じている。
論文 参考訳(メタデータ) (2021-08-16T17:50:08Z) - Providing Assurance and Scrutability on Shared Data and Machine Learning
Models with Verifiable Credentials [0.0]
実践者は、関連する信頼できるデータを使用することにAI開発者を頼っている。
科学者は、データリソースの品質を証明する署名された認証情報を発行できます。
BOMは、AIシステムのサプライチェーンの追跡可能な記録を提供します。
論文 参考訳(メタデータ) (2021-05-13T15:58:05Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。