論文の概要: Data Budgeting for Machine Learning
- arxiv url: http://arxiv.org/abs/2210.00987v1
- Date: Mon, 3 Oct 2022 14:53:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:46:31.534588
- Title: Data Budgeting for Machine Learning
- Title(参考訳): 機械学習のためのデータ予算作成
- Authors: Xinyi Zhao, Weixin Liang and James Zou
- Abstract要約: データ予算問題を研究し,それを2つのサブプロブレムとして定式化する。
本稿では,データ予算問題の解法を提案する。
私たちの経験的評価は、50ドル以下のデータポイントを持つ小さなパイロットスタディデータセットを前提として、データ予算の実行が可能であることを示しています。
- 参考スコア(独自算出の注目度): 17.524791147624086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data is the fuel powering AI and creates tremendous value for many domains.
However, collecting datasets for AI is a time-consuming, expensive, and
complicated endeavor. For practitioners, data investment remains to be a leap
of faith in practice. In this work, we study the data budgeting problem and
formulate it as two sub-problems: predicting (1) what is the saturating
performance if given enough data, and (2) how many data points are needed to
reach near the saturating performance. Different from traditional
dataset-independent methods like PowerLaw, we proposed a learning method to
solve data budgeting problems. To support and systematically evaluate the
learning-based method for data budgeting, we curate a large collection of 383
tabular ML datasets, along with their data vs performance curves. Our empirical
evaluation shows that it is possible to perform data budgeting given a small
pilot study dataset with as few as $50$ data points.
- Abstract(参考訳): データはAIを駆動する燃料であり、多くのドメインに膨大な価値をもたらす。
しかし、AIのためのデータセットの収集は、時間がかかり、高価で複雑な作業である。
実践者にとって、データ投資は実践における信頼の飛躍である。
本研究では,データ予算問題について検討し,(1)十分なデータを得た場合の飽和性能を予測し,(2)飽和性能に近づくためには,どれだけのデータポイントが必要か,という2つのサブプロブレムとして定式化する。
powerlawのような従来のデータセット非依存の方法とは異なり、データ予算問題を解くための学習方法を提案した。
データ予算化のための学習ベース手法を体系的に評価するために,383個の表形式のMLデータセットと,そのデータと性能曲線の大規模なコレクションをキュレートする。
実証的な評価から,50ドル程度のデータポイントの少ない小規模なパイロット研究データセットでは,データ予算の実施が可能であることが示された。
関連論文リスト
- Compute-Constrained Data Selection [77.06528009072967]
コスト対応ユーティリティ関数を用いてデータ選択の問題を定式化し、その問題をトレーニングのための初期選択コストのトレーディングとしてモデル化する。
複数のタスク、微調整トークンのスケーリングによる計算予算、モデルサイズ、データ選択計算など、包括的な実験を網羅的に実施しています。
論文 参考訳(メタデータ) (2024-10-21T17:11:21Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Addressing Budget Allocation and Revenue Allocation in Data Market
Environments Using an Adaptive Sampling Algorithm [14.206050847214652]
本稿では,予算配分と収益配分を同時に線形時間で解く新しいアルゴリズムを提案する。
新しいアルゴリズムでは、モデルに最も貢献しているプロバイダからデータを選択するアダプティブサンプリングプロセスを採用している。
予算を効率的に利用し,収益配分特性がShapleyに類似していることを示すアルゴリズムを理論的に保証する。
論文 参考訳(メタデータ) (2023-06-05T02:28:19Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value [17.340091573913316]
本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-16T08:03:58Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - Data Collection and Quality Challenges in Deep Learning: A Data-Centric
AI Perspective [16.480530590466472]
データ中心のAIプラクティスが主流になりつつある。
現実世界の多くのデータセットは小さく、汚く、偏りがあり、毒まみれである。
データ品質については、データ検証とデータクリーニング技術について研究する。
論文 参考訳(メタデータ) (2021-12-13T03:57:36Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。