論文の概要: Fairshare Data Pricing for Large Language Models
- arxiv url: http://arxiv.org/abs/2502.00198v1
- Date: Fri, 31 Jan 2025 22:27:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:58:21.651635
- Title: Fairshare Data Pricing for Large Language Models
- Title(参考訳): 大規模言語モデルのためのフェアシェアデータ価格設定
- Authors: Luyang Zhang, Cathy Jiao, Beibei Li, Chenyan Xiong,
- Abstract要約: 大規模言語モデル(LLM)への貢献度を定量化するために,データアセスメント手法を用いてトレーニングデータ価格を設定するフェアシェア価格設定フレームワークを提案する。
理論的には、私たちのフレームワークから得られる価格が、買い手と売り手の両方に最適なデータバリュエーションと買い手の予算と密接な関係があることを示します。
我々のフレームワークは、大規模AIのための公平で持続可能なデータ市場に関する将来の研究の基礎を築き上げている。
- 参考スコア(独自算出の注目度): 15.79368596445939
- License:
- Abstract: Training data is a pivotal resource for building large language models (LLMs), but unfair pricing in data markets poses a serious challenge for both data buyers (e.g., LLM builders) and sellers (e.g., human annotators), which discourages market participation, reducing data quantity and quality. In this paper, we propose a fairshare pricing framework that sets training data prices using data valuation methods to quantify their contribution to LLMs. In our framework, buyers make purchasing decisions using data valuation and sellers set prices to maximize their profits based on the anticipated buyer purchases. We theoretically show that pricing derived from our framework is tightly linked to data valuation and buyers' budget, optimal for both buyers and sellers. Through market simulations using current LLMs and datasets (math problems, medical diagnosis, and physical reasoning), we show that our framework is fairshare for buyers by ensuring their purchased data is reflective of model training value, leading to higher LLM task performances per-dollar spent on data, and fairshare for sellers by ensuring they sell their data at optimal prices. Our framework lays the foundation for future research on equitable and sustainable data markets for large-scale AI.
- Abstract(参考訳): トレーニングデータは大規模な言語モデル(LLM)を構築する上で重要なリソースであるが、データ市場における不公平な価格設定は、データ購入者(LLMビルダーなど)と販売者(人間アノテータなど)の両方にとって深刻な課題となり、市場への参加を妨げ、データ量と品質を低下させる。
本稿では,LLMへの貢献度を定量化するために,データアセスメント手法を用いてトレーニングデータ価格を設定するフェアシェア価格設定フレームワークを提案する。
この枠組みでは、買い手はデータバリュエーションを用いて購入決定を行い、売り手は予想される買い手購入に基づいて利益を最大化するために価格を設定する。
理論的には、私たちのフレームワークから得られる価格が、買い手と売り手の両方に最適なデータバリュエーションと買い手の予算と密接な関係があることを示します。
現在のLCMとデータセット(男性問題、診断、身体的推論)を用いた市場シミュレーションを通じて、購入したデータがモデルトレーニング値に反映されることを保証することで、購入者にとって公正なフレームワークであることが示され、データに費やされた1ドル当たりのLCMタスクパフォーマンスが向上し、販売者が最適な価格でデータを販売できることが保証された。
我々のフレームワークは、大規模AIのための公平で持続可能なデータ市場に関する将来の研究の基礎を築き上げている。
関連論文リスト
- Data Measurements for Decentralized Data Markets [18.99870296998749]
分散データ市場は、機械学習のためのより公平なデータ取得を提供することができる。
我々は、データ購入者が関連する多様なデータセットを持つ売り手を見つけることができるように、フェデレートされたデータ測定をベンチマークして提案する。
論文 参考訳(メタデータ) (2024-06-06T17:03:51Z) - A Bargaining-based Approach for Feature Trading in Vertical Federated
Learning [54.51890573369637]
本稿では,垂直的フェデレートラーニング(VFL)において,経済的に効率的な取引を促進するための交渉型特徴取引手法を提案する。
当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。
論文 参考訳(メタデータ) (2024-02-23T10:21:07Z) - An Auction-based Marketplace for Model Trading in Federated Learning [54.79736037670377]
フェデレートラーニング(FL)は、局所的な分散データを用いたトレーニングモデルにおいて、その効果がますます認識されている。
FLはモデルのマーケットプレースであり、顧客は買い手と売り手の両方として振る舞う。
本稿では,性能向上に基づく適切な価格設定を実現するため,オークションベースのソリューションを提案する。
論文 参考訳(メタデータ) (2024-02-02T07:25:53Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Dynamic Datasets and Market Environments for Financial Reinforcement
Learning [68.11692837240756]
FinRL-Metaは、現実世界の市場からジムスタイルの市場環境へ動的データセットを処理するライブラリである。
我々は,ユーザが新しい取引戦略を設計するための足場として,人気のある研究論文を例示し,再現する。
また、ユーザが自身の結果を視覚化し、相対的なパフォーマンスを評価するために、このライブラリをクラウドプラットフォームにデプロイします。
論文 参考訳(メタデータ) (2023-04-25T22:17:31Z) - A Survey of Data Pricing for Data Marketplaces [77.3189288320768]
本稿では,既存のデータ価格研究の現状を概観する。
我々の重要な貢献は、データ価格を決定する異なる属性を統一するデータ価格研究の新しい分類である。
論文 参考訳(メタデータ) (2023-03-07T04:35:56Z) - A Marketplace for Trading AI Models based on Blockchain and Incentives
for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。
モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。
本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文 参考訳(メタデータ) (2021-12-06T08:52:42Z) - What Is the Price of Data? A Measurement Study of Commercial Data
Marketplaces [0.0]
我々は、成長するData Marketplaceエコシステムに関する、この種の測定研究の第一弾を提示する。
サブスクリプションモデルで販売されるライブデータ製品の平均価格は、月1,400米ドルである。
静的データのワンオフ購入の場合、中央値は約2200ドルである。
論文 参考訳(メタデータ) (2021-10-25T10:39:47Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。