論文の概要: LAVA: Data Valuation without Pre-Specified Learning Algorithms
- arxiv url: http://arxiv.org/abs/2305.00054v1
- Date: Fri, 28 Apr 2023 19:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:27:26.049629
- Title: LAVA: Data Valuation without Pre-Specified Learning Algorithms
- Title(参考訳): LAVA: 事前特定学習アルゴリズムのないデータ評価
- Authors: Hoang Anh Just, Feiyang Kang, Jiachen T. Wang, Yi Zeng, Myeongseob Ko,
Ming Jin, Ruoxi Jia
- Abstract要約: この作業は、ダウンストリーム学習アルゴリズムに非依存な方法でトレーニングデータを評価可能な、新たなフレームワークを導入することで、現在のデータバリュエーションメソッドの限界を乗り越えるものだ。
本研究では,トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
- 参考スコア(独自算出の注目度): 8.418021941792281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, data valuation is posed as a problem of equitably splitting
the validation performance of a learning algorithm among the training data. As
a result, the calculated data values depend on many design choices of the
underlying learning algorithm. However, this dependence is undesirable for many
use cases of data valuation, such as setting priorities over different data
sources in a data acquisition process and informing pricing mechanisms in a
data marketplace. In these scenarios, data needs to be valued before the actual
analysis and the choice of the learning algorithm is still undetermined then.
Another side-effect of the dependence is that to assess the value of individual
points, one needs to re-run the learning algorithm with and without a point,
which incurs a large computation burden.
This work leapfrogs over the current limits of data valuation methods by
introducing a new framework that can value training data in a way that is
oblivious to the downstream learning algorithm. (1) We develop a proxy for the
validation performance associated with a training set based on a
non-conventional class-wise Wasserstein distance between the training and the
validation set. We show that the distance characterizes the upper bound of the
validation performance for any given model under certain Lipschitz conditions.
(2) We develop a novel method to value individual data based on the sensitivity
analysis of the class-wise Wasserstein distance. Importantly, these values can
be directly obtained for free from the output of off-the-shelf optimization
solvers when computing the distance. (3) We evaluate our new data valuation
framework over various use cases related to detecting low-quality data and show
that, surprisingly, the learning-agnostic feature of our framework enables a
significant improvement over the state-of-the-art performance while being
orders of magnitude faster.
- Abstract(参考訳): 伝統的に、データ評価は、学習アルゴリズムの検証性能をトレーニングデータ間で公平に分割する問題として提起される。
その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計選択に依存する。
しかし、データ取得プロセスにおける異なるデータソースに対する優先順位の設定や、データマーケットプレースにおける価格設定メカニズムの実行など、データバリュエーションの多くのユースケースでは、この依存は望ましくない。
これらのシナリオでは、データは実際の分析の前に評価され、学習アルゴリズムの選択はまだ決定されていない。
依存のもう一つの副作用は、個々の点の値を評価するためには、ポイントなしで学習アルゴリズムを再実行する必要があることである。
この作業は、下流の学習アルゴリズムに欠かせない方法でトレーニングデータを評価できる新しいフレームワークを導入することで、現在のデータ評価手法の限界を乗り越えるものだ。
1) トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて, トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
2) クラス別ワッサースタイン距離の感度解析に基づいて, 個人データを評価する新しい手法を開発した。
重要なことは、これらの値は距離を計算する際にオフザシェルフ最適化ソルバの出力から直接得ることができる。
3) 低品質なデータの検出に関するさまざまなユースケースに対して,新たなデータ評価フレームワークを評価した上で,驚くべきことに,このフレームワークの学習非依存機能は,桁違いに高速でありながら,最先端のパフォーマンスを大幅に改善できることを示しました。
関連論文リスト
- Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。
OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。
我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文 参考訳(メタデータ) (2023-06-18T14:38:29Z) - Building Manufacturing Deep Learning Models with Minimal and Imbalanced
Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。
我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。
我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文 参考訳(メタデータ) (2023-05-31T21:45:34Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - CheckSel: Efficient and Accurate Data-valuation Through Online
Checkpoint Selection [3.321404824316694]
本稿では,データアセスメントとサブセット選択の問題に対して,新しい2段階の解を提案する。
フェーズ1は、SGDライクなトレーニングアルゴリズムから代表チェックポイントを選択し、フェーズ2で使用して、近似トレーニングデータ値を推定する。
実験結果から,提案アルゴリズムは試験精度において,最近のベースライン法を最大30%上回る性能を示した。
論文 参考訳(メタデータ) (2022-03-14T02:06:52Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。