論文の概要: Uncertainty Quantification of Data Shapley via Statistical Inference
- arxiv url: http://arxiv.org/abs/2407.19373v1
- Date: Sun, 28 Jul 2024 02:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:32:13.554121
- Title: Uncertainty Quantification of Data Shapley via Statistical Inference
- Title(参考訳): 統計的推論によるデータ共有の不確かさの定量化
- Authors: Mengmeng Wu, Zhihong Liu, Xiang Li, Ruoxi Jia, Xiangyu Chang,
- Abstract要約: データ市場の出現は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
本稿では,データ共有度と無限次U-統計量の関係について述べる。
- 参考スコア(独自算出の注目度): 20.35973700939768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As data plays an increasingly pivotal role in decision-making, the emergence of data markets underscores the growing importance of data valuation. Within the machine learning landscape, Data Shapley stands out as a widely embraced method for data valuation. However, a limitation of Data Shapley is its assumption of a fixed dataset, contrasting with the dynamic nature of real-world applications where data constantly evolves and expands. This paper establishes the relationship between Data Shapley and infinite-order U-statistics and addresses this limitation by quantifying the uncertainty of Data Shapley with changes in data distribution from the perspective of U-statistics. We make statistical inferences on data valuation to obtain confidence intervals for the estimations. We construct two different algorithms to estimate this uncertainty and provide recommendations for their applicable situations. We also conduct a series of experiments on various datasets to verify asymptotic normality and propose a practical trading scenario enabled by this method.
- Abstract(参考訳): 意思決定においてデータがますます重要な役割を担っているため、データ市場の台頭は、データバリュエーションの重要性の高まりを浮き彫りにしている。
機械学習の世界では、Data Shapleyはデータバリュエーションに広く受け入れられている方法だ。
しかし、Data Shapleyの制限は固定データセットの仮定であり、データは常に進化し拡張する現実世界のアプリケーションの動的な性質とは対照的である。
本稿では,データ共有化と無限次U統計の関係を確立し,データ共有化の不確実性とデータ分散の変化をU統計の観点から定量化することにより,この制限に対処する。
我々は,データ評価の統計的推測を行い,評価のための信頼区間を求める。
我々は,この不確実性を推定し,適用可能な状況に対するレコメンデーションを提供するために,二つの異なるアルゴリズムを構築した。
また, 各種データセットに対する一連の実験を行い, 漸近的正規性を検証するとともに, 本手法で実現した実用的な取引シナリオを提案する。
関連論文リスト
- Federated Prediction-Powered Inference from Decentralized Data [40.84399531998246]
予測パワー推論(PPI)は信頼性が低いにもかかわらず統計的妥当性を確保するために提案されている。
Fed-PPIフレームワークは、プライベートデータ上でローカルモデルをトレーニングし、Federated Learning (FL)を通じてそれらを集約し、PPIを使用して信頼区間を導出する。
論文 参考訳(メタデータ) (2024-09-03T09:14:18Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - Geometry-Aware Instrumental Variable Regression [56.16884466478886]
本稿では,データ導出情報によるデータ多様体の幾何を考慮した移動型IV推定器を提案する。
本手法のプラグイン・アンド・プレイ実装は,標準設定で関連する推定器と同等に動作する。
論文 参考訳(メタデータ) (2024-05-19T17:49:33Z) - Inference With Combining Rules From Multiple Differentially Private Synthetic Datasets [0.0]
DIPSデータセットの分析にルールを組み合わせることによって,プロシージャの適用性を検討する。
我々の経験的実験により、提案された組み合わせルールは、特定の状況において正確な推論を提供するが、すべての場合において正確な推論はできないことが示された。
論文 参考訳(メタデータ) (2024-05-08T02:33:35Z) - Uncertainty for Active Learning on Graphs [70.44714133412592]
不確実性サンプリングは、機械学習モデルのデータ効率を改善することを目的とした、アクティブな学習戦略である。
予測の不確実性を超えた不確実性サンプリングをベンチマークし、他のアクティブラーニング戦略に対する大きなパフォーマンスギャップを強調します。
提案手法は,データ生成プロセスの観点から基幹的ベイズ不確実性推定法を開発し,不確実性サンプリングを最適クエリへ導く上での有効性を実証する。
論文 参考訳(メタデータ) (2024-05-02T16:50:47Z) - Variance reduced Shapley value estimation for trustworthy data valuation [16.03510965397185]
階層化サンプリングを用いたよりロバストなデータ評価手法を提案する。
理論的には、層状化の方法、各層でどれだけのサンプルを採取するか、そしてVRDSの複雑さ分析の例を示す。
論文 参考訳(メタデータ) (2022-10-30T13:04:52Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Evaluating Model Robustness and Stability to Dataset Shift [7.369475193451259]
機械学習モデルの安定性を解析するためのフレームワークを提案する。
本手法では,アルゴリズムが性能の悪い分布を決定するために,元の評価データを用いる。
我々は,アルゴリズムの性能を"Worst-case"分布で推定する。
論文 参考訳(メタデータ) (2020-10-28T17:35:39Z) - On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。
本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。
また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文 参考訳(メタデータ) (2020-06-14T12:47:34Z) - A Distributional Framework for Data Valuation [26.065217938868617]
我々は,形式的な保証付きデータから値を推定するアルゴリズムを開発し,最先端のアルゴリズムよりも2桁高速に動作させる。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
論文 参考訳(メタデータ) (2020-02-27T18:51:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。