論文の概要: Do Data Valuations Make Good Data Prices?
- arxiv url: http://arxiv.org/abs/2504.05563v2
- Date: Fri, 26 Sep 2025 16:21:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 18:47:02.633336
- Title: Do Data Valuations Make Good Data Prices?
- Title(参考訳): データ評価は優れたデータ価格を生み出すか?
- Authors: Dongyang Fan, Tyler J. Rotello, Sai Praneeth Karimireddy,
- Abstract要約: データバリュエーションを、$textitmarket-designの視点で見直す。
低い支払いのために、Leave-One-OutやData Shapley-makeなどの一般的な評価方法が示されています。
我々は、メカニズム設計、すなわちMyersonとVickrey-Clarke-Grovesから確立された支払いルールを適用する。
- 参考スコア(独自算出の注目度): 10.526444017990302
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models increasingly rely on external data sources, compensating data contributors has become a central concern. But how should these payments be devised? We revisit data valuations from a $\textit{market-design perspective}$ where payments serve to compensate data owners for the $\textit{private}$ heterogeneous costs they incur for collecting and sharing data. We show that popular valuation methods-such as Leave-One-Out and Data Shapley-make for poor payments. They fail to ensure truthful reporting of the costs, leading to $\textit{inefficient market}$ outcomes. To address this, we adapt well-established payment rules from mechanism design, namely Myerson and Vickrey-Clarke-Groves (VCG), to the data market setting. We show that Myerson payment is the minimal truthful mechanism, optimal from the buyer's perspective. Additionally, we identify a condition under which both data buyers and sellers are utility-satisfied, and the market achieves efficiency. Our findings highlight the importance of incorporating incentive compatibility into data valuation design, paving the way for more robust and efficient data markets. Our data market framework is readily applicable to real-world scenarios. We illustrate this with simulations of contributor compensation in an LLM based retrieval-augmented generation (RAG) marketplace tasked with challenging medical question answering.
- Abstract(参考訳): 大きな言語モデルがますます外部データソースに依存しているため、データコントリビュータの補償が中心的な関心事になっている。
しかし、これらの支払いはどのように考案されるべきなのか?
データバリュエーションを$\textit{market-design perspective}$から再検討する。$\textit{private}$ $\textit{private}$ データの収集と共有のために発生する異質なコストに対して、データ所有者を補償する。
低い支払いのために、Leave-One-OutやData Shapley-makeなどの一般的な評価方法が示されています。
それらはコストの真正な報告を保証することができず、$\textit{in efficient market}$ resultsに繋がる。
この問題を解決するため、マイソンとヴィクレー・クラーク・グラヴス(VCG)というメカニズム設計からデータ市場設定への確立された支払いルールを適用する。
我々は、Myersonの支払いが買い手の観点から最適である最小限の真理的なメカニズムであることを示す。
さらに,データ購入者と販売者の両方が実用性に満足する条件を特定し,市場が効率性を達成する。
我々の発見は、データバリュエーション設計にインセンティブ互換性を取り入れることの重要性を強調し、より堅牢で効率的なデータ市場への道を開いた。
我々のデータ市場フレームワークは、現実世界のシナリオに容易に適用できます。
本稿では, LLM を用いた検索拡張世代 (RAG) マーケットプレースにおけるコントリビュータ補償のシミュレーションを用いてこれを解説する。
関連論文リスト
- Designing DSIC Mechanisms for Data Sharing in the Era of Large Language Models [0.0]
大規模言語モデル(LLM)のトレーニングには、法的、プライバシー、戦略的制約に直面している機関からの大量の高品質なデータが必要である。
本稿では,信頼度を最小化したデータ共有のためのメカニズム設計フレームワークを提案する。
我々は、プロバイダがデータコストと品質をプライベートに知るモデルを定式化し、その価値は、モデルの性能に対するデータの貢献からのみ生じます。
論文 参考訳(メタデータ) (2025-06-01T22:17:18Z) - Data Pricing for Graph Neural Networks without Pre-purchased Inspection [15.556650640576311]
モデルマーケットプレースでは、モデルトレーディングメカニズムを活用して、データ所有者に適切なインセンティブを与える。
本稿では、データの重要性を評価し、データ所有者を補償する構造的重要度に基づくモデル取引機構(SIMT)を提案する。
SIMTは、MacroF1とMicroF1の両方で、バニラベースラインを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-12T10:42:04Z) - An Instrumental Value for Data Production and its Application to Data Pricing [107.98697414652479]
本稿では,データ生成プロセスのインストゥルメンタルな価値を捉えるためのアプローチを開発する。
情報経済学における情報設計と信号の古典的概念とどのように結びつくかを示す。
論文 参考訳(メタデータ) (2024-12-24T03:53:57Z) - Wasserstein Markets for Differentially-Private Data [1.4266656344673316]
データ市場は、幅広いアクセスを可能にすると同時に、適切なプライバシーとユーティリティのトレードオフを決定する手段を提供する。
既存のデータ市場フレームワークでは、信頼できるサードパーティが高価なバリュエーションを実行するか、あるいはデータ価値の性質を把握できないかのいずれかが必要です。
本稿では,個人差分データに対するワッサーシュタイン距離に基づく評価機構とそれに対応する調達機構を提案する。
論文 参考訳(メタデータ) (2024-12-03T17:40:26Z) - Pricing Strategies for Different Accuracy Models from the Same Dataset Based on Generalized Hotelling's Law [9.353146025394372]
販売者がデータセットをD$で保有し、市場で販売される様々なアキュラシーのモデルにトレーニングするシナリオを考察する。
データセットは、異なる精度でモデルをトレーニングするために再利用することができ、トレーニングコストは、販売量とは独立している。
論文 参考訳(メタデータ) (2024-04-08T08:02:18Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - Privacy-Aware Data Acquisition under Data Similarity in Regression Markets [29.64195175524365]
データの類似性とプライバシの嗜好が市場設計に不可欠であることを示す。
我々は、データ類似性が市場参加や取引データの価値にどのように影響するかを数値的に評価する。
論文 参考訳(メタデータ) (2023-12-05T09:39:04Z) - Optimal Pricing for Data-Augmented AutoML Marketplaces [34.293214013879464]
既存のクラウドベースのAutoMLプラットフォームとシームレスに統合可能な,実用的なデータ拡張型AutoML市場を提案する。
通常のAutoMLソリューションとは異なり、当社の設計は、購入者が提出したトレーニングデータを貴重な外部データセットで自動的に強化します。
私たちの重要なイノベーションは、機器価値、すなわち限界モデルの品質改善に基づく価格設定メカニズムです。
論文 参考訳(メタデータ) (2023-10-27T01:49:13Z) - Mechanisms that Incentivize Data Sharing in Federated Learning [90.74337749137432]
我々は、データ共有の利点が完全に損なわれているような、ナイーブなスキームが破滅的なフリーライディングのレベルにどのように結びつくかを示す。
次に,各エージェントが生成するデータ量を最大化する精度形成機構を導入する。
論文 参考訳(メタデータ) (2022-07-10T22:36:52Z) - VFed-SSD: Towards Practical Vertical Federated Advertising [53.08038962443853]
本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワーク VFed-SSD を提案する。
具体的には,垂直分割された未ラベルデータを利用する自己教師型タスクMatchedPair Detection (MPD) を開発する。
当社のフレームワークは,デプロイコストの最小化と大幅なパフォーマンス向上を図った,リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-31T17:45:30Z) - Data Sharing Markets [95.13209326119153]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。
両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) (2021-07-19T06:00:34Z) - A Principled Approach to Data Valuation for Federated Learning [73.19984041333599]
フェデレートラーニング(FL)は、分散データソース上で機械学習(ML)モデルをトレーニングする一般的なテクニックである。
Shapley value (SV) はデータ値の概念として多くのデシラタを満たすユニークなペイオフスキームを定義する。
本稿では,FL に対応する SV の変種を提案する。
論文 参考訳(メタデータ) (2020-09-14T04:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。