論文の概要: An Instrumental Value for Data Production and its Application to Data Pricing
- arxiv url: http://arxiv.org/abs/2412.18140v1
- Date: Tue, 24 Dec 2024 03:53:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:56.518907
- Title: An Instrumental Value for Data Production and its Application to Data Pricing
- Title(参考訳): データ生産のための計測値とそのデータ価格への応用
- Authors: Rui Ai, Boxiang Lyu, Zhaoran Wang, Zhuoran Yang, Haifeng Xu,
- Abstract要約: 本稿では,データ生成プロセスのインストゥルメンタルな価値を捉えるためのアプローチを開発する。
情報経済学における情報設計と信号の古典的概念とどのように結びつくかを示す。
- 参考スコア(独自算出の注目度): 107.98697414652479
- License:
- Abstract: How much value does a dataset or a data production process have to an agent who wishes to use the data to assist decision-making? This is a fundamental question towards understanding the value of data as well as further pricing of data. This paper develops an approach for capturing the instrumental value of data production processes, which takes two key factors into account: (a) the context of the agent's decision-making problem; (b) prior data or information the agent already possesses. We ''micro-found'' our valuation concepts by showing how they connect to classic notions of information design and signals in information economics. When instantiated in the domain of Bayesian linear regression, our value naturally corresponds to information gain. Based on our designed data value, we then study a basic monopoly pricing setting with a buyer looking to purchase from a seller some labeled data of a certain feature direction in order to improve a Bayesian regression model. We show that when the seller has the ability to fully customize any data request, she can extract the first-best revenue (i.e., full surplus) from any population of buyers, i.e., achieving first-degree price discrimination. If the seller can only sell data that are derived from an existing data pool, this limits her ability to customize, and achieving first-best revenue becomes generally impossible. However, we design a mechanism that achieves seller revenue at most $\log (\kappa)$ less than the first-best revenue, where $\kappa$ is the condition number associated with the data matrix. A corollary of this result is that the seller can extract the first-best revenue in the multi-armed bandits special case.
- Abstract(参考訳): データセットやデータ生成プロセスは、意思決定を支援するためにデータを使用したいエージェントに対して、どの程度の価値がありますか?
これは、データの価値とさらなるデータ価格を理解するための根本的な問題である。
本稿では,2つの要因を考慮に入れた,データ生産プロセスのインストゥルメンタルな価値を把握するためのアプローチを開発する。
a) 代理人の意思決定問題の文脈
b) エージェントが既に保有している先行データ又は情報
情報経済学における情報設計と信号の古典的概念とどのように結びつくかを示すことで、評価概念を「マイクロファンド」します。
ベイズ線形回帰の領域でインスタンス化されると、我々の値は自然に情報ゲインに対応する。
設計したデータに基づいて、売り手から特定の特徴方向のラベル付きデータを購入しようとする買い手による基本的な独占価格設定を調査し、ベイズ回帰モデルを改善する。
販売者があらゆるデータ要求を完全にカスタマイズできる能力を持つ場合、購入者の集団、すなわち第1級価格差別を達成するための第1位の収益(すなわち全余剰)を抽出できることを示す。
売り手が既存のデータプールから派生したデータのみを売ることができれば、カスタマイズする能力が制限され、最初の収益を達成することは一般的に不可能になる。
しかし、我々は販売者収益を最大$\log (\kappa)$で達成するメカニズムを設計し、データマトリックスに関連付けられた条件番号を$\kappa$とする。
この結果の要約として、売り手は、マルチアームバンディット特別ケースにおいて、第1ベットの収益を抽出できる。
関連論文リスト
- Private, Augmentation-Robust and Task-Agnostic Data Valuation Approach for Data Marketplace [56.78396861508909]
PriArTaは、買い手の既存のデータセットと売り手のデータセットの分布の間の距離を計算するアプローチである。
PriArTaは通信効率が良く、買い手は各売り手からデータセット全体にアクセスすることなくデータセットを評価することができる。
論文 参考訳(メタデータ) (2024-11-01T17:13:14Z) - Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Reframing Data Value for Large Language Models Through the Lens of Plausibility [6.697702130929693]
本稿では,言語モデルにおけるデータ値問題に対する別の視点を提案する。
計算的に抽出可能な新しい値関数を開発し、証明可能な性質を持つ第一原理から導出する。
論文 参考訳(メタデータ) (2024-08-30T22:32:24Z) - Cost-Effective Proxy Reward Model Construction with On-Policy and Active Learning [70.22819290458581]
人間のフィードバックによる強化学習(RLHF)は、現在の大規模言語モデルパイプラインにおいて広く採用されているアプローチである。
提案手法では,(1)OODを回避するためのオン・ポリシー・クエリと,(2)プライオリティ・クエリの最も情報性の高いデータを選択するためのアクティブ・ラーニングという2つの重要なイノベーションを導入している。
論文 参考訳(メタデータ) (2024-07-02T10:09:19Z) - F-FOMAML: GNN-Enhanced Meta-Learning for Peak Period Demand Forecasting with Proxy Data [65.6499834212641]
本稿では,需要予測をメタラーニング問題として定式化し,F-FOMAMLアルゴリズムを開発した。
タスク固有のメタデータを通してドメインの類似性を考慮することにより、トレーニングタスクの数が増加するにつれて過剰なリスクが減少する一般化を改善した。
従来の最先端モデルと比較して,本手法では需要予測精度が著しく向上し,内部自動販売機データセットでは平均絶対誤差が26.24%,JD.comデータセットでは1.04%削減された。
論文 参考訳(メタデータ) (2024-06-23T21:28:50Z) - Fundamentals of Task-Agnostic Data Valuation [21.78555506720078]
データ検索/購入者のためのデータ所有者/販売者のデータ評価について検討する。
検証の必要なく、タスクに依存しないデータ評価に重点を置いています。
論文 参考訳(メタデータ) (2022-08-25T22:07:07Z) - Data Sharing Markets [95.13209326119153]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。
両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) (2021-07-19T06:00:34Z) - Data Appraisal Without Data Sharing [28.41079503636652]
セキュアなマルチパーティ計算によるデータ共有を必要としない手法を開発した。
実験の結果、影響関数は高品質な評価と必要な計算の間に魅力的なトレードオフをもたらすことがわかった。
論文 参考訳(メタデータ) (2020-12-11T15:45:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。