論文の概要: The Economics of AI Training Data: A Research Agenda
- arxiv url: http://arxiv.org/abs/2510.24990v1
- Date: Tue, 28 Oct 2025 21:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.800951
- Title: The Economics of AI Training Data: A Research Agenda
- Title(参考訳): AIトレーニングデータの経済性:研究アジェンダ
- Authors: Hamidah Oderinwale, Anna Kazlauskas,
- Abstract要約: データのAI生産における中心的な役割にもかかわらず、まだ理解されていないインプットである。
AIラボが公開データを消耗し、プロプライエタリなソースに転換するにつれ、コンピュータ科学、経済学、法律、そしてポリシーに関する研究が断片化している。
私たちは3つの貢献を通じてコヒーレントな分野としてデータ経済学を確立します。
- 参考スコア(独自算出の注目度): 0.4174557458129457
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite data's central role in AI production, it remains the least understood input. As AI labs exhaust public data and turn to proprietary sources, with deals reaching hundreds of millions of dollars, research across computer science, economics, law, and policy has fragmented. We establish data economics as a coherent field through three contributions. First, we characterize data's distinctive properties -- nonrivalry, context dependence, and emergent rivalry through contamination -- and trace historical precedents for market formation in commodities such as oil and grain. Second, we present systematic documentation of AI training data deals from 2020 to 2025, revealing persistent market fragmentation, five distinct pricing mechanisms (from per-unit licensing to commissioning), and that most deals exclude original creators from compensation. Third, we propose a formal hierarchy of exchangeable data units (token, record, dataset, corpus, stream) and argue for data's explicit representation in production functions. Building on these foundations, we outline four open research problems foundational to data economics: measuring context-dependent value, balancing governance with privacy, estimating data's contribution to production, and designing mechanisms for heterogeneous, compositional goods.
- Abstract(参考訳): データのAI生産における中心的な役割にもかかわらず、まだ理解されていないインプットである。
AI研究所が公的なデータを使い果たし、プロプライエタリな情報源に転換するにつれ、コンピューター科学、経済学、法律、そして政策に関する研究が断片化している。
私たちは3つの貢献を通じてコヒーレントな分野としてデータ経済学を確立します。
まず、データの特徴、すなわち非軍事性、文脈依存性、および汚染による創発的競争性を特徴付け、石油や穀物などの商品における市場形成の歴史的な先例を辿る。
第2に、2020年から2025年までのAIトレーニングデータトランザクションの体系的なドキュメント、永続的な市場の断片化、(ユニット単位のライセンスからコミッショニングまで)5つの異なる価格メカニズム、そしてほとんどのトランザクションは、オリジナルのクリエーターを報酬から除外している。
第三に、交換可能なデータ単位(トークン、レコード、データセット、コーパス、ストリーム)の形式的階層を提案し、生産関数におけるデータの明示的な表現について議論する。
データ経済の基礎となる4つのオープンな研究課題を概説する: 文脈に依存した価値の測定、プライバシによるガバナンスのバランス、データの生産への貢献度の推定、異質な構成商品の設計メカニズム。
関連論文リスト
- An Instrumental Value for Data Production and its Application to Data Pricing [107.98697414652479]
本稿では,データ生成プロセスのインストゥルメンタルな価値を捉えるためのアプローチを開発する。
情報経済学における情報設計と信号の古典的概念とどのように結びつくかを示す。
論文 参考訳(メタデータ) (2024-12-24T03:53:57Z) - Wasserstein Markets for Differentially-Private Data [1.4266656344673316]
データ市場は、幅広いアクセスを可能にすると同時に、適切なプライバシーとユーティリティのトレードオフを決定する手段を提供する。
既存のデータ市場フレームワークでは、信頼できるサードパーティが高価なバリュエーションを実行するか、あるいはデータ価値の性質を把握できないかのいずれかが必要です。
本稿では,個人差分データに対するワッサーシュタイン距離に基づく評価機構とそれに対応する調達機構を提案する。
論文 参考訳(メタデータ) (2024-12-03T17:40:26Z) - A Novel Framework for Analyzing Structural Transformation in Data-Constrained Economies Using Bayesian Modeling and Machine Learning [0.0]
農業経済からより多様化した産業やサービスベースのシステムへの移行は、経済発展の重要な要因である。
低所得国と中所得国(LMIC)では、データの不足と信頼性の欠如が、このプロセスの正確な評価を妨げる。
本稿では,ベイジアン階層モデリング,機械学習に基づくデータ計算,因子分析を統合することで,これらの課題に対処する新しい統計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-25T08:39:41Z) - Navigating the Data Trading Crossroads: An Interdisciplinary Survey [33.64953318642493]
データは、将来の経済にとって重要な要素として、ますます認識されるようになった。
しかし、効率的なデータトレーディング市場の構築は、プライバシー侵害、データ独占、誤用といった問題に直面している。
本稿では,既存の問題と研究ギャップを同定し,潜在的な解決策を提案する。
論文 参考訳(メタデータ) (2024-07-16T08:07:16Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - Data Sharing Markets [95.13209326119153]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。
両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) (2021-07-19T06:00:34Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - A Survey on Data Pricing: from Economics to Data Science [61.72030615854597]
データ価格の背景にある様々なモチベーションを調べ、データ価格の経済性を理解する。
デジタル製品とデータ製品の両方について論じる。
我々は、今後の仕事の一連の課題と方向性を考えます。
論文 参考訳(メタデータ) (2020-09-09T19:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。