論文の概要: Fairshare Data Pricing via Data Valuation for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.00198v2
- Date: Tue, 20 May 2025 01:11:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:51.74675
- Title: Fairshare Data Pricing via Data Valuation for Large Language Models
- Title(参考訳): 大規模言語モデルのためのデータ評価によるフェアシェアデータ価格設定
- Authors: Luyang Zhang, Cathy Jiao, Beibei Li, Chenyan Xiong,
- Abstract要約: 本稿では,大規模言語モデル(LLM)データ市場に関する理論的枠組みを紹介する。
我々は、悪用的な価格が高品質の売り手を市場から追い出す方法を示している。
次に、データバリュエーションに基づく価格設定メカニズムであるfairshareを紹介します。
- 参考スコア(独自算出の注目度): 15.79368596445939
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training data is the backbone of large language models (LLMs), yet today's data markets often operate under exploitative pricing -- sourcing data from marginalized groups with little pay or recognition. This paper introduces a theoretical framework for LLM data markets, modeling the strategic interactions between buyers (LLM builders) and sellers (human annotators). We begin with theoretical and empirical analysis showing how exploitative pricing drives high-quality sellers out of the market, degrading data quality and long-term model performance. Then we introduce fairshare, a pricing mechanism grounded in data valuation that quantifies each data's contribution. It aligns incentives by sustaining seller participation and optimizing utility for both buyers and sellers. Theoretically, we show that fairshare yields mutually optimal outcomes: maximizing long-term buyer utility and seller profit while sustaining market participation. Empirically when training open-source LLMs on complex NLP tasks, including math problems, medical diagnosis, and physical reasoning, fairshare boosts seller earnings and ensures a stable supply of high-quality data, while improving buyers' performance-per-dollar and long-term welfare. Our findings offer a concrete path toward fair, transparent, and economically sustainable data markets for LLM. Our code will be open sourced.
- Abstract(参考訳): トレーニングデータは、大規模言語モデル(LLM)のバックボーンだが、今日のデータ市場はしばしば、搾取的な価格の下で運用されている。
本稿では,LLMビルダーと販売者(人間アノテータ)の戦略的相互作用をモデル化し,LLMデータ市場のための理論的枠組みを提案する。
まず理論的および実証的な分析から、搾取的価格が高品質のセラーを市場から駆逐し、データ品質と長期モデルのパフォーマンスを低下させることを示す。
次に、各データのコントリビューションを定量化するデータバリュエーションに基づく価格設定メカニズムであるフェアシェアを導入する。
売り手への参加を維持し、買い手と売り手の両方のユーティリティーを最適化することでインセンティブを調整している。
理論的には、フェアシェアは、市場参加を維持しながら、長期購入者の効用と売り手利益を最大化する、相互に最適な結果をもたらすことを示す。
数学問題や医学診断、理学療法などの複雑なNLPタスクでオープンソースのLLMを訓練する場合、フェアシェアは販売者利益を増大させ、高品質なデータの提供を確実にし、購入者一人当たりのパフォーマンスと長期の福祉を改善している。
我々の発見は、LLMにとって公正で透明性があり、経済的に持続可能なデータ市場への具体的な道筋を提供する。
私たちのコードはオープンソースになります。
関連論文リスト
- Data Measurements for Decentralized Data Markets [18.99870296998749]
分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。
我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。
論文 参考訳(メタデータ) (2024-06-06T17:03:51Z) - A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - An Auction-based Marketplace for Model Trading in Federated Learning [54.79736037670377]
フェデレートラーニング(FL)は、局所的な分散データを用いたトレーニングモデルにおいて、その効果がますます認識されている。
FLはモデルのマーケットプレースであり、顧客は買い手と売り手の両方として振る舞う。
本稿では,性能向上に基づく適切な価格設定を実現するため,オークションベースのソリューションを提案する。
論文 参考訳(メタデータ) (2024-02-02T07:25:53Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Dynamic Datasets and Market Environments for Financial Reinforcement
Learning [68.11692837240756]
FinRL-Metaは、現実世界の市場からジムスタイルの市場環境へ動的データセットを処理するライブラリである。
我々は,ユーザが新しい取引戦略を設計するための足場として,人気のある研究論文を例示し,再現する。
また、ユーザが自身の結果を視覚化し、相対的なパフォーマンスを評価するために、このライブラリをクラウドプラットフォームにデプロイします。
論文 参考訳(メタデータ) (2023-04-25T22:17:31Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - A Marketplace for Trading AI Models based on Blockchain and Incentives
for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。
モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。
本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文 参考訳(メタデータ) (2021-12-06T08:52:42Z) - What Is the Price of Data? A Measurement Study of Commercial Data
Marketplaces [0.0]
我々は、成長するData Marketplaceエコシステムに関する、この種の測定研究の第一弾を提示する。
サブスクリプションモデルで販売されるライブデータ製品の平均価格は、月1,400米ドルである。
静的データのワンオフ購入の場合、中央値は約2200ドルである。
論文 参考訳(メタデータ) (2021-10-25T10:39:47Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。