論文の概要: A Data-Centric Online Market for Machine Learning: From Discovery to
Pricing
- arxiv url: http://arxiv.org/abs/2310.17843v1
- Date: Fri, 27 Oct 2023 01:49:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 15:11:02.720545
- Title: A Data-Centric Online Market for Machine Learning: From Discovery to
Pricing
- Title(参考訳): 機械学習のためのデータ中心オンライン市場:発見から価格まで
- Authors: Minbiao Han, Jonathan Light, Steven Xia, Sainyam Galhotra, Raul Castro
Fernandez, Haifeng Xu
- Abstract要約: 本稿では,機械学習のためのデータ中心市場を設計する上での2つの課題に対処する新しい手法を提案する。
数千のデータセットのプールから任意のMLタスクの有用なデータを自動的に検出するアルゴリズムを設計する。
また、データ拡張MLモデルを販売するための新しい価格体系を設計する。
- 参考スコア(独自算出の注目度): 36.01287194385664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data fuels machine learning (ML) - rich and high-quality training data is
essential to the success of ML. However, to transform ML from the race among a
few large corporations to an accessible technology that serves numerous normal
users' data analysis requests, there still exist important challenges. One gap
we observed is that many ML users can benefit from new data that other data
owners possess, whereas these data owners sit on piles of data without knowing
who can benefit from it. This gap creates the opportunity for building an
online market that can automatically connect supply with demand. While online
matching markets are prevalent (e.g., ride-hailing systems), designing a
data-centric market for ML exhibits many unprecedented challenges.
This paper develops new techniques to tackle two core challenges in designing
such a market: (a) to efficiently match demand with supply, we design an
algorithm to automatically discover useful data for any ML task from a pool of
thousands of datasets, achieving high-quality matching between ML models and
data; (b) to encourage market participation of ML users without much ML
expertise, we design a new pricing mechanism for selling data-augmented ML
models. Furthermore, our market is designed to be API-compatible with existing
online ML markets like Vertex AI and Sagemaker, making it easy to use while
providing better results due to joint data and model search. We envision that
the synergy of our data and model discovery algorithm and pricing mechanism
will be an important step towards building a new data-centric online market
that serves ML users effectively.
- Abstract(参考訳): data fuels machine learning (ml) - mlの成功には、リッチで高品質なトレーニングデータが不可欠である。
しかし、MLを少数の大企業間の競争から、多くの一般ユーザーのデータ分析要求に役立てるアクセス可能な技術に転換するには、依然として重要な課題がある。
私たちが観察した1つのギャップは、多くのmlユーザが、他のデータ所有者が持っている新しいデータから恩恵を受けることができるということです。
このギャップは、需要と供給を自動的に結びつけるオンライン市場を構築する機会を生み出します。
オンラインマッチング市場は一般的であるが(例えば、配車システム)、データ中心のML市場を設計することは、多くの前例のない課題を示している。
本稿では、そのような市場を設計する上での2つの課題に取り組むための新しい手法を開発する。
(a)需要と供給を効率的に一致させるため、数千のデータセットから機械学習タスクの有用なデータを自動的に検出し、MLモデルとデータ間の高品質なマッチングを実現するアルゴリズムを設計する。
b) MLの専門知識をあまり持たずにMLユーザの市場参加を促進するため,データ拡張MLモデルを販売するための新たな価格設定機構を設計する。
さらに、当社の市場は、Vertex AIやSagemakerといった既存のオンラインML市場とAPI互換に設計されています。
データとモデル発見アルゴリズムと価格設定メカニズムの相乗効果は、MLユーザが効果的に利用できる新しいデータ中心のオンライン市場を構築するための重要なステップになると考えています。
関連論文リスト
- Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - SimbaML: Connecting Mechanistic Models and Machine Learning with
Augmented Data [0.0]
SimbaMLは、通常の微分方程式に基づくモデルからリアルな合成データセットを生成するオープンソースツールである。
SimbaMLは、合成データから実世界のデータへの変換学習を便利に調査することができる。
論文 参考訳(メタデータ) (2023-04-08T12:50:50Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Survey on the Convergence of Machine Learning and Blockchain [4.45999674917158]
機械学習(ML)は近年広く研究されており、現実の多くの面で応用されている。
しかし、モデルとデータの問題は依然としてMLの開発に付随している。
ブロックチェーンを利用することで、これらの問題は効率的に解決できる。
論文 参考訳(メタデータ) (2022-01-04T04:47:45Z) - A Marketplace for Trading AI Models based on Blockchain and Incentives
for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。
モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。
本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文 参考訳(メタデータ) (2021-12-06T08:52:42Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。