論文の概要: Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value
- arxiv url: http://arxiv.org/abs/2304.07718v3
- Date: Thu, 1 Jun 2023 04:03:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 23:44:58.374253
- Title: Data-OOB: Out-of-bag Estimate as a Simple and Efficient Data Value
- Title(参考訳): Data-OOB: シンプルで効率的なデータ値として推定されるアウトオブバッグ
- Authors: Yongchan Kwon, James Zou
- Abstract要約: 本研究では,バッジモデルのためのデータ評価手法であるData-OOBを提案する。
Data-OOBは、評価に106ドルのサンプルがあり、入力寸法が100である場合、1つのCPUプロセッサで2.25時間未満である。
提案手法は,誤ラベル付きデータを識別し,有用な(あるいは有害な)データポイントの集合を見出すことで,既存の最先端データ評価手法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 17.340091573913316
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data valuation is a powerful framework for providing statistical insights
into which data are beneficial or detrimental to model training. Many
Shapley-based data valuation methods have shown promising results in various
downstream tasks, however, they are well known to be computationally
challenging as it requires training a large number of models. As a result, it
has been recognized as infeasible to apply to large datasets. To address this
issue, we propose Data-OOB, a new data valuation method for a bagging model
that utilizes the out-of-bag estimate. The proposed method is computationally
efficient and can scale to millions of data by reusing trained weak learners.
Specifically, Data-OOB takes less than 2.25 hours on a single CPU processor
when there are $10^6$ samples to evaluate and the input dimension is 100.
Furthermore, Data-OOB has solid theoretical interpretations in that it
identifies the same important data point as the infinitesimal jackknife
influence function when two different points are compared. We conduct
comprehensive experiments using 12 classification datasets, each with thousands
of sample sizes. We demonstrate that the proposed method significantly
outperforms existing state-of-the-art data valuation methods in identifying
mislabeled data and finding a set of helpful (or harmful) data points,
highlighting the potential for applying data values in real-world applications.
- Abstract(参考訳): データバリュエーション(data valuation)は、モデルトレーニングに有用なデータや有害なデータに関する統計的な洞察を提供するための強力なフレームワークである。
多くのShapleyベースのデータ評価手法は、様々な下流タスクにおいて有望な結果を示しているが、多くのモデルをトレーニングする必要があるため、計算的に困難であることが知られている。
その結果、大規模なデータセットに適用することは不可能であると認識されている。
そこで本研究では,バッグ外推定を用いたバッグモデルのためのデータ評価手法であるData-OOBを提案する。
提案手法は計算効率が高く,訓練された弱学習者を用いて数百万データにスケールできる。
具体的には、Data-OOBは、評価するために10^6$のサンプルがあり、入力次元が100である場合、1つのCPUプロセッサ上で2.25時間未満である。
さらに、data-oob は、2つの異なる点を比較した場合の無限小jackknife影響関数と同じ重要なデータポイントを識別する、という理論的な解釈を持っている。
数千のサンプルサイズを持つ12の分類データセットを用いて,包括的な実験を行った。
提案手法は,既存のデータ評価手法を著しく上回っており,誤ラベルデータを特定し,有用な(あるいは有害な)データポイントのセットを見つけ,実世界のアプリケーションでデータ値を適用する可能性を強調している。
関連論文リスト
- Stochastic Amortization: A Unified Approach to Accelerate Feature and
Data Attribution [67.28273187033693]
アモート化(amortization)と呼ばれる,所望の出力を直接予測するネットワークのトレーニングは安価で,驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Exploring Data Redundancy in Real-world Image Classification through
Data Selection [20.389636181891515]
ディープラーニングモデルはトレーニングに大量のデータを必要とすることが多く、結果としてコストが増大する。
実世界の画像データの冗長性を調べるために,シナプスインテリジェンスと勾配ノルムに基づく2つのデータ評価指標を提案する。
オンラインおよびオフラインのデータ選択アルゴリズムは、検査されたデータ値に基づいてクラスタリングとグループ化によって提案される。
論文 参考訳(メタデータ) (2023-06-25T03:31:05Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Data Budgeting for Machine Learning [17.524791147624086]
データ予算問題を研究し,それを2つのサブプロブレムとして定式化する。
本稿では,データ予算問題の解法を提案する。
私たちの経験的評価は、50ドル以下のデータポイントを持つ小さなパイロットスタディデータセットを前提として、データ予算の実行が可能であることを示しています。
論文 参考訳(メタデータ) (2022-10-03T14:53:17Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - CvS: Classification via Segmentation For Small Datasets [52.821178654631254]
本稿では,分類ラベルをセグメントマップの予測から導出する小型データセットのコスト効率の高い分類器であるCvSを提案する。
我々は,CvSが従来の手法よりもはるかに高い分類結果が得られることを示す多種多様な問題に対して,本フレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2021-10-29T18:41:15Z) - Harnessing Unlabeled Data to Improve Generalization of Biometric Gender
and Age Classifiers [0.7874708385247353]
ディープラーニングモデルは、モデルトレーニングと最適パラメータ推定のために、大量のラベル付きデータを必要とする。
プライバシやセキュリティ上の懸念から、医療分野を含む特定のアプリケーションに対して大量のラベル付きデータを収集することはできない。
本稿では,ラベル付きデータに制限を加えた自己アンサンブルに基づくディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2021-10-09T01:06:01Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。