論文の概要: Addressing Budget Allocation and Revenue Allocation in Data Market
Environments Using an Adaptive Sampling Algorithm
- arxiv url: http://arxiv.org/abs/2306.02543v1
- Date: Mon, 5 Jun 2023 02:28:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:17:57.253892
- Title: Addressing Budget Allocation and Revenue Allocation in Data Market
Environments Using an Adaptive Sampling Algorithm
- Title(参考訳): 適応サンプリングアルゴリズムを用いたデータ市場環境における予算配分と収益配分
- Authors: Boxin Zhao, Boxiang Lyu, Raul Castro Fernandez, Mladen Kolar
- Abstract要約: 本稿では,予算配分と収益配分を同時に線形時間で解く新しいアルゴリズムを提案する。
新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。
予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。
- 参考スコア(独自算出の注目度): 14.206050847214652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality machine learning models are dependent on access to high-quality
training data. When the data are not already available, it is tedious and
costly to obtain them. Data markets help with identifying valuable training
data: model consumers pay to train a model, the market uses that budget to
identify data and train the model (the budget allocation problem), and finally
the market compensates data providers according to their data contribution
(revenue allocation problem). For example, a bank could pay the data market to
access data from other financial institutions to train a fraud detection model.
Compensating data contributors requires understanding data's contribution to
the model; recent efforts to solve this revenue allocation problem based on the
Shapley value are inefficient to lead to practical data markets.
In this paper, we introduce a new algorithm to solve budget allocation and
revenue allocation problems simultaneously in linear time. The new algorithm
employs an adaptive sampling process that selects data from those providers who
are contributing the most to the model. Better data means that the algorithm
accesses those providers more often, and more frequent accesses corresponds to
higher compensation. Furthermore, the algorithm can be deployed in both
centralized and federated scenarios, boosting its applicability. We provide
theoretical guarantees for the algorithm that show the budget is used
efficiently and the properties of revenue allocation are similar to Shapley's.
Finally, we conduct an empirical evaluation to show the performance of the
algorithm in practical scenarios and when compared to other baselines. Overall,
we believe that the new algorithm paves the way for the implementation of
practical data markets.
- Abstract(参考訳): 高品質な機械学習モデルは、高品質なトレーニングデータへのアクセスに依存する。
データが利用できない場合、それらを取得するのは退屈で費用がかかる。
データ市場は貴重なトレーニングデータを特定するのに役立ちます: モデル消費者はモデルをトレーニングするために支払い、その予算を使ってデータを識別し、モデルをトレーニングします(予算割り当ての問題)。
例えば、銀行はデータ市場を支払い、他の金融機関のデータにアクセスして不正検出モデルを訓練することができる。
データコントリビュータを補償するには、モデルへのデータの貢献を理解する必要があるが、shapley値に基づくこの収益配分問題を解決する最近の取り組みは、実用的なデータ市場につながるには非効率である。
本稿では,予算割当問題と収益割当問題を線形時間に同時に解く新しいアルゴリズムを提案する。
新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。
より良いデータとは、アルゴリズムがそれらのプロバイダに頻繁にアクセスし、より頻繁なアクセスはより高い補償に対応することを意味する。
さらに、アルゴリズムは集中型と連合型の両方のシナリオにデプロイでき、適用性を高めることができる。
予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。
最後に,実際のシナリオおよび他のベースラインと比較した場合に,アルゴリズムの性能を示すための経験的評価を行う。
全体として、新しいアルゴリズムは実用的なデータ市場の実現の道を開くと信じています。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - DAVED: Data Acquisition via Experimental Design for Data Markets [25.300193837833426]
本稿では,線形実験設計にインスパイアされたデータ取得問題に対するフェデレートされたアプローチを提案する。
提案手法はラベル付き検証データを必要とせずに予測誤差を低くする。
我々の研究の重要な洞察は、テストセット予測のためのデータ取得の利点を直接見積もる手法が、特に分散市場設定と互換性があることである。
論文 参考訳(メタデータ) (2024-03-20T18:05:52Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Preserving Fairness in AI under Domain Shift [15.820660013260584]
AIの公正性を保証するための既存のアルゴリズムは、単発トレーニング戦略を使用している。
ドメインシフトの下で公正な状態を維持するために公正なモデルを適用するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2023-01-29T06:13:40Z) - Data Budgeting for Machine Learning [17.524791147624086]
データ予算問題を研究し,それを2つのサブプロブレムとして定式化する。
本稿では,データ予算問題の解法を提案する。
私たちの経験的評価は、50ドル以下のデータポイントを持つ小さなパイロットスタディデータセットを前提として、データ予算の実行が可能であることを示しています。
論文 参考訳(メタデータ) (2022-10-03T14:53:17Z) - Self-supervised similarity models based on well-logging data [1.0723143072368782]
油田の異なる問題に対する解に適した普遍的なデータ表現を提供する手法を提案する。
当社のアプローチは,間隔の連続的なログデータに対する自己管理手法に依拠している。
変動型オートエンコーダを用いることで、最も信頼性が高く正確なモデルが得られることがわかった。
論文 参考訳(メタデータ) (2022-09-26T06:24:08Z) - Augmented Bilinear Network for Incremental Multi-Stock Time-Series
Classification [83.23129279407271]
本稿では,有価証券のセットで事前学習したニューラルネットワークで利用可能な知識を効率的に保持する手法を提案する。
本手法では,既存の接続を固定することにより,事前学習したニューラルネットワークに符号化された事前知識を維持する。
この知識は、新しいデータを用いて最適化された一連の拡張接続によって、新しい証券に対して調整される。
論文 参考訳(メタデータ) (2022-07-23T18:54:10Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Data Sharing Markets [95.13209326119153]
我々は、各エージェントがデータの買い手および売り手の両方になり得る設定について検討する。
両データ交換(データ付きトレーディングデータ)と一方データ交換(お金付きトレーディングデータ)の2つの事例を考察する。
論文 参考訳(メタデータ) (2021-07-19T06:00:34Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。