論文の概要: Consent in Crisis: The Rapid Decline of the AI Data Commons
- arxiv url: http://arxiv.org/abs/2407.14933v2
- Date: Wed, 24 Jul 2024 16:52:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 18:02:43.563558
- Title: Consent in Crisis: The Rapid Decline of the AI Data Commons
- Title(参考訳): 危機への同意:AIデータコモンズの急激な衰退
- Authors: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland,
- Abstract要約: 汎用人工知能(AI)システムは、大量の公開Webデータに基づいて構築されている。
我々は,AIトレーニングコーパスに基づくWebドメインに対する同意プロトコルの大規模かつ長期的監査を行う。
- 参考スコア(独自算出の注目度): 74.68176012363253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how codified data use preferences are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crises in data consent, for both developers and creators. The foreclosure of much of the open web will impact not only commercial AI, but also non-commercial AI and academic research.
- Abstract(参考訳): 汎用人工知能(AI)システムは、C4、RefinedWeb、Dolmaなどのコーパスに組み立てられた大量の公開Webデータに基づいて構築されている。
我々の知る限り、我々は、AIトレーニングコーパスを基盤とするWebドメインの同意プロトコルを、初めて大規模かつ経時的に監査する。
14,000のWebドメインに対する監査は、クローラブルなWebデータの広範なビューと、コーデレートされたデータの使用嗜好が時間とともにどのように変化しているかを提供する。
我々は、使用を制限するAI固有の条項の急増、AI開発者に対する制限の急激な相違、およびサービス規約におけるウェブサイトの表現意図とロボット.txtとの一般的な矛盾を観察する。
我々は、これらを非効率的なWebプロトコルの症状として診断し、AIのためのインターネットの広範な再調達に対処するために設計されていない。
我々の縦断的な分析によると、1年(2023-2024年)にWebソースからのデータ制限の急激なクレシデントが発生し、C4のすべてのトークンの約5%、C4の最も活発に維持されている重要なソースの28%以上が、完全に使用が制限されている。
サービスクローリングの制限については、C4の完全な45%が制限されている。
尊重されたり強制されたりした場合、これらの制限は汎用AIシステムの多様性、鮮度、スケーリングの法則を急速に偏っている。
私たちは、開発者とクリエーターの両方にとって、データ同意の新たな危機について説明したいと思っています。
オープンウェブの公開は、商用AIだけでなく、非商用AIや学術研究にも影響を及ぼすだろう。
関連論文リスト
- Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools [32.78336381381673]
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について報告する。
LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化している。
それは、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:56:05Z) - Artificial Intelligence Index Report 2024 [15.531650534547945]
AI Indexのレポートでは、人工知能(AI)に関連するデータを追跡、照合、蒸留、可視化している。
AIインデックスは、AIに関するデータと洞察の最も信頼性が高く権威のある情報源の1つとして、世界的に認識されている。
今年のエディションは、サイズ、スケール、スコープのすべての旧版を上回り、AIが私たちの人生で持つ重要性が増していることを反映している。
論文 参考訳(メタデータ) (2024-05-29T20:59:57Z) - Adopting AI: How Familiarity Breeds Both Trust and Contempt [0.0]
我々は、車、手術、武器、サイバー防衛の4種類の自律技術の使用について検討する。
AIに精通している人や専門知識のある人は、私たちがテストしたすべての自律的アプリケーションをサポートする傾向がありました。
個人は、自分の生活に直接適用した場合、AI対応技術をサポートする可能性も低い。
論文 参考訳(メタデータ) (2023-05-02T13:26:54Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Sparks of Artificial General Intelligence: Early experiments with GPT-4 [66.1188263570629]
OpenAIが開発したGPT-4は、前例のない規模の計算とデータを使って訓練された。
我々は, GPT-4が数学, コーディング, ビジョン, 医学, 法学, 心理学などにまたがる, 新規で困難な課題を解くことを実証した。
我々は、GPT-4を人工知能(AGI)システムの早期(まだ未完成)版と見なすことができると信じている。
論文 参考訳(メタデータ) (2023-03-22T16:51:28Z) - Proceedings of the Artificial Intelligence for Cyber Security (AICS)
Workshop at AAAI 2022 [55.573187938617636]
ワークショップは、サイバーセキュリティの問題へのAIの適用に焦点を当てる。
サイバーシステムは大量のデータを生成し、これを効果的に活用することは人間の能力を超えます。
論文 参考訳(メタデータ) (2022-02-28T18:27:41Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Structured access to AI capabilities: an emerging paradigm for safe AI
deployment [0.0]
AIシステムをオープンに普及させる代わりに、開発者はAIシステムとの制御された腕の長さのインタラクションを促進する。
Aimは、危険なAI能力が広くアクセスされることを防ぐと同時に、安全に使用できるAI機能へのアクセスを保護することを目的としている。
論文 参考訳(メタデータ) (2022-01-13T19:30:16Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。