論文の概要: LAVA: Data Valuation without Pre-Specified Learning Algorithms
- arxiv url: http://arxiv.org/abs/2305.00054v3
- Date: Tue, 19 Dec 2023 20:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 19:26:49.103745
- Title: LAVA: Data Valuation without Pre-Specified Learning Algorithms
- Title(参考訳): LAVA: 事前特定学習アルゴリズムのないデータ評価
- Authors: Hoang Anh Just, Feiyang Kang, Jiachen T. Wang, Yi Zeng, Myeongseob Ko,
Ming Jin, Ruoxi Jia
- Abstract要約: 我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
- 参考スコア(独自算出の注目度): 20.578106028270607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, data valuation (DV) is posed as a problem of equitably
splitting the validation performance of a learning algorithm among the training
data. As a result, the calculated data values depend on many design choices of
the underlying learning algorithm. However, this dependence is undesirable for
many DV use cases, such as setting priorities over different data sources in a
data acquisition process and informing pricing mechanisms in a data
marketplace. In these scenarios, data needs to be valued before the actual
analysis and the choice of the learning algorithm is still undetermined then.
Another side-effect of the dependence is that to assess the value of individual
points, one needs to re-run the learning algorithm with and without a point,
which incurs a large computation burden. This work leapfrogs over the current
limits of data valuation methods by introducing a new framework that can value
training data in a way that is oblivious to the downstream learning algorithm.
Our main results are as follows. (1) We develop a proxy for the validation
performance associated with a training set based on a non-conventional
class-wise Wasserstein distance between training and validation sets. We show
that the distance characterizes the upper bound of the validation performance
for any given model under certain Lipschitz conditions. (2) We develop a novel
method to value individual data based on the sensitivity analysis of the
class-wise Wasserstein distance. Importantly, these values can be directly
obtained for free from the output of off-the-shelf optimization solvers when
computing the distance. (3) We evaluate our new data valuation framework over
various use cases related to detecting low-quality data and show that,
surprisingly, the learning-agnostic feature of our framework enables a
significant improvement over SOTA performance while being orders of magnitude
faster.
- Abstract(参考訳): 従来、学習アルゴリズムの検証性能をトレーニングデータ間で公平に分割する問題として、データ評価(DV)が提案されている。
その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計選択に依存する。
しかし、この依存は、データ取得プロセスにおける異なるデータソースに対する優先順位の設定や、データマーケットプレースにおける価格設定メカニズムの実行など、多くのDVユースケースでは望ましくない。
これらのシナリオでは、データは実際の分析の前に評価され、学習アルゴリズムの選択はまだ決定されていない。
依存のもう一つの副作用は、個々の点の値を評価するためには、ポイントなしで学習アルゴリズムを再実行する必要があることである。
この作業は、下流の学習アルゴリズムに欠かせない方法でトレーニングデータを評価できる新しいフレームワークを導入することで、現在のデータ評価手法の限界を乗り越えるものだ。
主な成果は以下の通りである。
1) トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて, トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
2) クラス別ワッサースタイン距離の感度解析に基づいて, 個人データを評価する新しい手法を開発した。
重要なことは、これらの値は距離を計算する際にオフザシェルフ最適化ソルバの出力から直接得ることができる。
3)低品質データの検出に関連するさまざまなユースケースに対して,新たなデータアセスメントフレームワークを評価し,驚くべきことに,我々のフレームワークの学習非依存機能は,桁違いに高速でSOTAの性能を大幅に向上させることができることを示す。
関連論文リスト
- Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。
OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文 参考訳(メタデータ) (2023-06-18T14:38:29Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - CheckSel: Efficient and Accurate Data-valuation Through Online
Checkpoint Selection [3.321404824316694]
本稿では,データアセスメントとサブセット選択の問題に対して,新しい2段階の解を提案する。
フェーズ1は、SGDライクなトレーニングアルゴリズムから代表チェックポイントを選択し、フェーズ2で使用して、近似トレーニングデータ値を推定する。
実験結果から,提案アルゴリズムは試験精度において,最近のベースライン法を最大30%上回る性能を示した。
論文 参考訳(メタデータ) (2022-03-14T02:06:52Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。