Fugu-MT 論文翻訳(概要): LAVA: Data Valuation without Pre-Specified Learning Algorithms

論文の概要: LAVA: Data Valuation without Pre-Specified Learning Algorithms

arxiv url: http://arxiv.org/abs/2305.00054v1
Date: Fri, 28 Apr 2023 19:05:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 17:27:26.049629
Title: LAVA: Data Valuation without Pre-Specified Learning Algorithms
Title（参考訳）: LAVA: 事前特定学習アルゴリズムのないデータ評価
Authors: Hoang Anh Just, Feiyang Kang, Jiachen T. Wang, Yi Zeng, Myeongseob Ko, Ming Jin, Ruoxi Jia
Abstract要約: この作業は、ダウンストリーム学習アルゴリズムに非依存な方法でトレーニングデータを評価可能な、新たなフレームワークを導入することで、現在のデータバリュエーションメソッドの限界を乗り越えるものだ。本研究では,トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
参考スコア（独自算出の注目度）: 8.418021941792281
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditionally, data valuation is posed as a problem of equitably splitting the validation performance of a learning algorithm among the training data. As a result, the calculated data values depend on many design choices of the underlying learning algorithm. However, this dependence is undesirable for many use cases of data valuation, such as setting priorities over different data sources in a data acquisition process and informing pricing mechanisms in a data marketplace. In these scenarios, data needs to be valued before the actual analysis and the choice of the learning algorithm is still undetermined then. Another side-effect of the dependence is that to assess the value of individual points, one needs to re-run the learning algorithm with and without a point, which incurs a large computation burden. This work leapfrogs over the current limits of data valuation methods by introducing a new framework that can value training data in a way that is oblivious to the downstream learning algorithm. (1) We develop a proxy for the validation performance associated with a training set based on a non-conventional class-wise Wasserstein distance between the training and the validation set. We show that the distance characterizes the upper bound of the validation performance for any given model under certain Lipschitz conditions. (2) We develop a novel method to value individual data based on the sensitivity analysis of the class-wise Wasserstein distance. Importantly, these values can be directly obtained for free from the output of off-the-shelf optimization solvers when computing the distance. (3) We evaluate our new data valuation framework over various use cases related to detecting low-quality data and show that, surprisingly, the learning-agnostic feature of our framework enables a significant improvement over the state-of-the-art performance while being orders of magnitude faster.
Abstract（参考訳）: 伝統的に、データ評価は、学習アルゴリズムの検証性能をトレーニングデータ間で公平に分割する問題として提起される。その結果、計算されたデータ値は、基礎となる学習アルゴリズムの多くの設計選択に依存する。しかし、データ取得プロセスにおける異なるデータソースに対する優先順位の設定や、データマーケットプレースにおける価格設定メカニズムの実行など、データバリュエーションの多くのユースケースでは、この依存は望ましくない。これらのシナリオでは、データは実際の分析の前に評価され、学習アルゴリズムの選択はまだ決定されていない。依存のもう一つの副作用は、個々の点の値を評価するためには、ポイントなしで学習アルゴリズムを再実行する必要があることである。この作業は、下流の学習アルゴリズムに欠かせない方法でトレーニングデータを評価できる新しいフレームワークを導入することで、現在のデータ評価手法の限界を乗り越えるものだ。 1) トレーニングと検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて, トレーニングセットに関連する検証性能のプロキシを開発する。距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。 2) クラス別ワッサースタイン距離の感度解析に基づいて, 個人データを評価する新しい手法を開発した。重要なことは、これらの値は距離を計算する際にオフザシェルフ最適化ソルバの出力から直接得ることができる。 3) 低品質なデータの検出に関するさまざまなユースケースに対して,新たなデータ評価フレームワークを評価した上で,驚くべきことに,このフレームワークの学習非依存機能は,桁違いに高速でありながら,最先端のパフォーマンスを大幅に改善できることを示しました。

関連論文リスト

Learning-Augmented Moment Estimation on Time-Decay Models [55.06256430461023]
私たちは、多くの基本的な問題に対して学習強化アルゴリズムを提供するために、データセットのヘビーヒッターにオラクルを使用します。提案手法は,実データおよび合成データセット上でのアルゴリズムの実用的効率を実証する実験的な評価によって理論的結果を補完するものである。
論文参考訳（メタデータ） (2026-03-03T00:42:34Z)
Z0-Inf: Zeroth Order Approximation for Data Influence [47.682602051124235]
トレーニングデータの影響を推定するための高効率ゼロ階近似を導入する。提案手法は, 微調整された大規模言語モデルに対して, 自己影響を推定し, 列車試験の影響を推定する上で, 自己影響を推定する上で優れた精度を実現する。
論文参考訳（メタデータ） (2025-10-13T18:30:37Z)
Oversampling and Downsampling with Core-Boundary Awareness: A Data Quality-Driven Approach [2.334306891078381]
本稿では,2種類のデータを系統的に識別し,識別する手法を提案する。高品質な意思決定関連データを優先順位付けすることで、私たちのアプローチはテキスト、マルチモーダル、そして自己教師型学習シナリオにまで拡張できます。この研究は、データ効率の学習における将来の研究の道を開いた。
論文参考訳（メタデータ） (2025-09-24T07:55:07Z)
Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。 2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。 Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文参考訳（メタデータ） (2025-08-20T11:59:32Z)
Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文参考訳（メタデータ） (2025-05-22T02:46:03Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-09T15:36:42Z)
Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文参考訳（メタデータ） (2024-04-30T13:39:26Z)
Online Importance Sampling for Stochastic Gradient Optimization [33.42221341526944]
本稿では,トレーニング中のデータの重要度を効率的に計算する実用的なアルゴリズムを提案する。また、ネットワーク出力の損失w.r.t.の導出に基づく新しいメトリクスを導入し、ミニバッチの重要度サンプリング用に設計した。
論文参考訳（メタデータ） (2023-11-24T13:21:35Z)
OpenDataVal: a Unified Benchmark for Data Valuation [38.15852021170501]
OpenDataValは、データバリュエーションのための、使いやすく、統一されたベンチマークフレームワークです。 OpenDataValは、11種類の最先端データバリュエーションアルゴリズムを含む統合環境を提供する。我々はOpenDataValを用いてベンチマーク分析を行い、最先端データ評価手法の有効性を定量化し比較する。
論文参考訳（メタデータ） (2023-06-18T14:38:29Z)
Building Manufacturing Deep Learning Models with Minimal and Imbalanced Training Data Using Domain Adaptation and Data Augmentation [15.333573151694576]
本稿では,目標学習課題に対するラベル付き学習データ不足の問題に対処する新しいドメイン適応(DA)手法を提案する。我々のアプローチは、ソースデータセットとターゲット学習タスクで利用可能なデータセットが同一または異なる機能空間を持つシナリオで機能する。我々は、ウェハ欠陥予測のための画像データを用いて、組み合わせたアプローチを評価する。
論文参考訳（メタデータ） (2023-05-31T21:45:34Z)
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文参考訳（メタデータ） (2023-05-22T15:57:53Z)
CheckSel: Efficient and Accurate Data-valuation Through Online Checkpoint Selection [3.321404824316694]
本稿では,データアセスメントとサブセット選択の問題に対して,新しい2段階の解を提案する。フェーズ1は、SGDライクなトレーニングアルゴリズムから代表チェックポイントを選択し、フェーズ2で使用して、近似トレーニングデータ値を推定する。実験結果から,提案アルゴリズムは試験精度において,最近のベースライン法を最大30%上回る性能を示した。
論文参考訳（メタデータ） (2022-03-14T02:06:52Z)
Learning to be a Statistician: Learned Estimator for Number of Distinct Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文参考訳（メタデータ） (2022-02-06T15:42:04Z)
Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文参考訳（メタデータ） (2021-04-14T14:20:22Z)
Provably Efficient Causal Reinforcement Learning with Confounded Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-06-22T14:49:33Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。