論文の概要: A Data-Centric Online Market for Machine Learning: From Discovery to
Pricing
- arxiv url: http://arxiv.org/abs/2310.17843v1
- Date: Fri, 27 Oct 2023 01:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-10-30 15:11:02.720545
- Title: A Data-Centric Online Market for Machine Learning: From Discovery to
Pricing
- Title(参考訳): 機械学習のためのデータ中心オンライン市場:発見から価格まで
- Authors: Minbiao Han, Jonathan Light, Steven Xia, Sainyam Galhotra, Raul Castro
Fernandez, Haifeng Xu
- Abstract要約: 本稿では,機械学習のためのデータ中心市場を設計する上での2つの課題に対処する新しい手法を提案する。
数千のデータセットのプールから任意のMLタスクの有用なデータを自動的に検出するアルゴリズムを設計する。
また、データ拡張MLモデルを販売するための新しい価格体系を設計する。
- 参考スコア(独自算出の注目度): 36.01287194385664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data fuels machine learning (ML) - rich and high-quality training data is
essential to the success of ML. However, to transform ML from the race among a
few large corporations to an accessible technology that serves numerous normal
users' data analysis requests, there still exist important challenges. One gap
we observed is that many ML users can benefit from new data that other data
owners possess, whereas these data owners sit on piles of data without knowing
who can benefit from it. This gap creates the opportunity for building an
online market that can automatically connect supply with demand. While online
matching markets are prevalent (e.g., ride-hailing systems), designing a
data-centric market for ML exhibits many unprecedented challenges.
This paper develops new techniques to tackle two core challenges in designing
such a market: (a) to efficiently match demand with supply, we design an
algorithm to automatically discover useful data for any ML task from a pool of
thousands of datasets, achieving high-quality matching between ML models and
data; (b) to encourage market participation of ML users without much ML
expertise, we design a new pricing mechanism for selling data-augmented ML
models. Furthermore, our market is designed to be API-compatible with existing
online ML markets like Vertex AI and Sagemaker, making it easy to use while
providing better results due to joint data and model search. We envision that
the synergy of our data and model discovery algorithm and pricing mechanism
will be an important step towards building a new data-centric online market
that serves ML users effectively.
- Abstract(参考訳): data fuels machine learning (ml) - mlの成功には、リッチで高品質なトレーニングデータが不可欠である。
しかし、MLを少数の大企業間の競争から、多くの一般ユーザーのデータ分析要求に役立てるアクセス可能な技術に転換するには、依然として重要な課題がある。
私たちが観察した1つのギャップは、多くのmlユーザが、他のデータ所有者が持っている新しいデータから恩恵を受けることができるということです。
このギャップは、需要と供給を自動的に結びつけるオンライン市場を構築する機会を生み出します。
オンラインマッチング市場は一般的であるが(例えば、配車システム)、データ中心のML市場を設計することは、多くの前例のない課題を示している。
本稿では、そのような市場を設計する上での2つの課題に取り組むための新しい手法を開発する。
(a)需要と供給を効率的に一致させるため、数千のデータセットから機械学習タスクの有用なデータを自動的に検出し、MLモデルとデータ間の高品質なマッチングを実現するアルゴリズムを設計する。
b) MLの専門知識をあまり持たずにMLユーザの市場参加を促進するため,データ拡張MLモデルを販売するための新たな価格設定機構を設計する。
さらに、当社の市場は、Vertex AIやSagemakerといった既存のオンラインML市場とAPI互換に設計されています。
データとモデル発見アルゴリズムと価格設定メカニズムの相乗効果は、MLユーザが効果的に利用できる新しいデータ中心のオンライン市場を構築するための重要なステップになると考えています。
関連論文リスト
- Designing DSIC Mechanisms for Data Sharing in the Era of Large Language Models [0.0]
大規模言語モデル(LLM)のトレーニングには、法的、プライバシー、戦略的制約に直面している機関からの大量の高品質なデータが必要である。
本稿では,信頼度を最小化したデータ共有のためのメカニズム設計フレームワークを提案する。
我々は、プロバイダがデータコストと品質をプライベートに知るモデルを定式化し、その価値は、モデルの性能に対するデータの貢献からのみ生じます。
論文 参考訳(メタデータ) (2025-06-01T22:17:18Z) - Data Pricing for Graph Neural Networks without Pre-purchased Inspection [15.556650640576311]
モデルマーケットプレースでは、モデルトレーディングメカニズムを活用して、データ所有者に適切なインセンティブを与える。
本稿では、データの重要性を評価し、データ所有者を補償する構造的重要度に基づくモデル取引機構(SIMT)を提案する。
SIMTは、MacroF1とMicroF1の両方で、バニラベースラインを40%以上上回っている。
論文 参考訳(メタデータ) (2025-02-12T10:42:04Z) - MetaTrading: An Immersion-Aware Model Trading Framework for Vehicular Metaverse Services [94.61039892220037]
我々は、フェデレーション学習(FL)によるプライバシーを確保しつつ、サービスのデータ提供を容易にする没入型モデルトレーディングフレームワークを提案する。
我々は,資源制約下での高価値モデルに貢献するために,メタバースユーザ(MU)にインセンティブを与えるインセンティブ機構を設計する。
我々は、MUやその他のMSPに関するプライベート情報にアクセスすることなく、深層強化学習に基づく完全に分散された動的報酬アルゴリズムを開発する。
論文 参考訳(メタデータ) (2024-10-25T16:20:46Z) - Deriva-ML: A Continuous FAIRness Approach to Reproducible Machine Learning Models [1.204452887718077]
データ管理ツールが機械学習(ML)アプリケーションに使用されるデータ品質を大幅に改善できることを示す。
本稿では、このようなツールのアーキテクチャと実装を提案し、MLベースのeScience調査を改善するための2つのユースケースを実演する。
論文 参考訳(メタデータ) (2024-06-27T04:42:29Z) - IMFL-AIGC: Incentive Mechanism Design for Federated Learning Empowered by Artificial Intelligence Generated Content [15.620004060097155]
フェデレートラーニング(FL)は、クライアントがローカルデータをアップロードすることなく、共有グローバルモデルを協調的にトレーニングできる、有望なパラダイムとして登場した。
顧客参加を促すため,データ品質を考慮したインセンティブ機構を提案する。
提案したメカニズムは,トレーニングの精度が高く,実世界のデータセットによるサーバコストの最大53.34%を削減できる。
論文 参考訳(メタデータ) (2024-06-12T07:47:22Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Benchmarking Automated Machine Learning Methods for Price Forecasting
Applications [58.720142291102135]
自動機械学習(AutoML)ソリューションで手作業で作成したMLパイプラインを置換する可能性を示す。
CRISP-DMプロセスに基づいて,手動MLパイプラインを機械学習と非機械学習に分割した。
本稿では、価格予測の産業利用事例として、ドメイン知識とAutoMLを組み合わせることで、ML専門家への依存が弱まることを示す。
論文 参考訳(メタデータ) (2023-04-28T10:27:38Z) - SimbaML: Connecting Mechanistic Models and Machine Learning with
Augmented Data [0.0]
SimbaMLは、通常の微分方程式に基づくモデルからリアルな合成データセットを生成するオープンソースツールである。
SimbaMLは、合成データから実世界のデータへの変換学習を便利に調査することができる。
論文 参考訳(メタデータ) (2023-04-08T12:50:50Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - An Investigation of Smart Contract for Collaborative Machine Learning
Model Training [3.5679973993372642]
協調機械学習(CML)はビッグデータ時代において様々な分野に浸透してきた。
MLモデルのトレーニングには大量の高品質なデータが必要であるため、データのプライバシに関する懸念を取り除く必要がある。
ブロックチェーンに基づいて、スマートコントラクトはデータ保存とバリデーションの自動実行を可能にする。
論文 参考訳(メタデータ) (2022-09-12T04:25:01Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Survey on the Convergence of Machine Learning and Blockchain [4.45999674917158]
機械学習(ML)は近年広く研究されており、現実の多くの面で応用されている。
しかし、モデルとデータの問題は依然としてMLの開発に付随している。
ブロックチェーンを利用することで、これらの問題は効率的に解決できる。
論文 参考訳(メタデータ) (2022-01-04T04:47:45Z) - A Marketplace for Trading AI Models based on Blockchain and Incentives
for IoT Data [24.847898465750667]
機械学習(ML)の新たなパラダイムは、学習モデルを異種エージェントのグループに部分的に配信するフェデレートされたアプローチであり、エージェントは自身のデータでモデルをローカルにトレーニングすることができる。
モデルの評価の問題や、協調トレーニングやデータ/モデルの取引に対するインセンティブの問題は、文献において限られた扱いを受けてきた。
本稿では、信頼されたMLベースのネットワーク上でのMLモデルトレーディングの新しいエコシステムを提案する。買い手はML市場から関心のモデルを取得することができ、興味のある売り手はそのモデルの品質を高めるためにローカルな計算に費やす。
論文 参考訳(メタデータ) (2021-12-06T08:52:42Z) - OSOUM Framework for Trading Data Research [79.0383470835073]
私たちは、私たちの知る限り、最初のオープンソースのシミュレーションプラットフォームであるOpen SOUrce Market Simulator(OSOUM)を提供して、トレーディング市場、特にデータ市場を分析します。
我々は、購入に利用可能なさまざまなデータセットを所有する売り手と、購入に有効な適切なデータセットを検索する買い手という2つのタイプのエージェントからなる、特定のデータ市場モデルを記述し、実装する。
データ市場を扱うための商用フレームワークはすでに存在していますが、購入者および販売者の両方が(データ)市場に参加することの可能な振る舞いをシミュレートするための、自由で広範なエンドツーエンドの研究ツールを提供しています。
論文 参考訳(メタデータ) (2021-02-18T09:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。