論文の概要: DataPerf: Benchmarks for Data-Centric AI Development
- arxiv url: http://arxiv.org/abs/2207.10062v1
- Date: Wed, 20 Jul 2022 17:47:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 14:01:18.540020
- Title: DataPerf: Benchmarks for Data-Centric AI Development
- Title(参考訳): DataPerf: データ中心AI開発のためのベンチマーク
- Authors: Mark Mazumder, Colby Banbury, Xiaozhe Yao, Bojan Karla\v{s}, William
Gaviria Rojas, Sudnya Diamos, Greg Diamos, Lynn He, Douwe Kiela, David
Jurado, David Kanter, Rafael Mosquera, Juan Ciro, Lora Aroyo, Bilge Acun,
Sabri Eyuboglu, Amirata Ghorbani, Emmett Goodman, Tariq Kane, Christine R.
Kirkpatrick, Tzu-Sheng Kuo, Jonas Mueller, Tristan Thrush, Joaquin
Vanschoren, Margaret Warren, Adina Williams, Serena Yeung, Newsha Ardalani,
Praveen Paritosh, Ce Zhang, James Zou, Carole-Jean Wu, Cody Coleman, Andrew
Ng, Peter Mattson, Vijay Janapa Reddi
- Abstract要約: MLデータセットとデータセット処理アルゴリズムを評価するためのベンチマークパッケージであるDataPerfを紹介する。
トレーニングセットが同じ問題でテストセットを評価するのに役立つ"データラチェット"を有効にするつもりです。
- 参考スコア(独自算出の注目度): 53.89214079538945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) research has generally focused on models, while the
most prominent datasets have been employed for everyday ML tasks without regard
for the breadth, difficulty, and faithfulness of these datasets to the
underlying problem. Neglecting the fundamental importance of datasets has
caused major problems involving data cascades in real-world applications and
saturation of dataset-driven criteria for model quality, hindering research
growth. To solve this problem, we present DataPerf, a benchmark package for
evaluating ML datasets and dataset-working algorithms. We intend it to enable
the "data ratchet," in which training sets will aid in evaluating test sets on
the same problems, and vice versa. Such a feedback-driven strategy will
generate a virtuous loop that will accelerate development of data-centric AI.
The MLCommons Association will maintain DataPerf.
- Abstract(参考訳): 機械学習(ML)の研究は一般的にモデルに焦点を当てているが、最も顕著なデータセットは、これらのデータセットの幅、難しさ、忠実さを考慮せずに、日々のMLタスクに採用されている。
データセットの基本的な重要性を無視することは、現実のアプリケーションにおけるデータカスケードや、モデル品質に関するデータセット駆動基準の飽和といった大きな問題を引き起こし、研究の成長を妨げる。
この問題を解決するために,MLデータセットとデータセット処理アルゴリズムを評価するベンチマークパッケージであるDataPerfを提案する。
私たちは、トレーニングセットが同じ問題に対するテストセットを評価するのに役立つ「データラチェット」を可能にすることを意図しています。
このようなフィードバック駆動型戦略は、データ中心のAIの開発を加速する活発なループを生成する。
MLCommons AssociationはDataPerfをメンテナンスする。
関連論文リスト
- Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Quality In / Quality Out: Assessing Data quality in an Anomaly Detection
Benchmark [0.13764085113103217]
同じベンチマークデータセット(異常検出のためのフローベースリアルタイムデータセットであるUGR'16)に対する比較的小さな変更は、考慮した機械学習技術よりも、モデルパフォーマンスに著しく影響することを示します。
この結果から,自律型ネットワークにおけるデータ品質評価と最適化技術に,より注意を払う必要があることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T12:03:12Z) - METAM: Goal-Oriented Data Discovery [9.73435089036831]
METAMは目標指向のフレームワークで、下流タスクを候補データセットでクエリし、フィードバックループを形成して、発見と拡張プロセスを自動的に管理する。
我々はMETAMの理論的保証を示し、それらを幅広いタスクセットで実証的に示す。
論文 参考訳(メタデータ) (2023-04-18T15:42:25Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Quality Not Quantity: On the Interaction between Dataset Design and
Robustness of CLIP [43.7219097444333]
ここでは,CLIPにおける事前学習分布がロバスト性をいかに引き起こすかを調べるために,公開されている6つのデータソースのテストベッドを紹介する。
その結果,事前学習データの性能は分布変化によって大きく異なることがわかった。
複数のソースを組み合わせることで、必ずしもより良いモデルが得られるのではなく、最高の個々のデータソースのロバスト性を希薄にする。
論文 参考訳(メタデータ) (2022-08-10T18:24:23Z) - DataCLUE: A Benchmark Suite for Data-centric NLP [10.97174994617386]
データ中心のAIは、モデルパフォーマンスを改善するためにデータセットの品質を改善することを強調する。
NLPフィールドに適用された最初のData-CentricベンチマークであるDataCLUEを提案する。
我々は,人間のアノテーションを用いた総合的な実験を行い,DataCLUEの硬さを示す。
論文 参考訳(メタデータ) (2021-11-16T17:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。