論文の概要: DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation
- arxiv url: http://arxiv.org/abs/2306.02071v1
- Date: Sat, 3 Jun 2023 10:22:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 20:25:55.890068
- Title: DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation
- Title(参考訳): DU-Shapley: 効率的なデータセット評価のためのShapley Value Proxy
- Authors: Felipe Garrido-Lucero and Benjamin Heymann and Maxime Vono and Patrick
Loiseau and Vianney Perchet
- Abstract要約: 離散一様シャプリー(DU-Shapley)と呼ばれるシャプリー値の新しい近似法を提案する。
DU-Shapleyは、データ所有者の数が少ない場合でも、他のShapley値近似よりも優れている。
- 参考スコア(独自算出の注目度): 23.289887533168226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many machine learning problems require performing dataset valuation, i.e. to
quantify the incremental gain, to some relevant pre-defined utility, of
aggregating an individual dataset to others. As seminal examples, dataset
valuation has been leveraged in collaborative and federated learning to create
incentives for data sharing across several data owners. The Shapley value has
recently been proposed as a principled tool to achieve this goal due to formal
axiomatic justification. Since its computation often requires exponential time,
standard approximation strategies based on Monte Carlo integration have been
considered. Such generic approximation methods, however, remain expensive in
some cases. In this paper, we exploit the knowledge about the structure of the
dataset valuation problem to devise more efficient Shapley value estimators. We
propose a novel approximation of the Shapley value, referred to as discrete
uniform Shapley (DU-Shapley) which is expressed as an expectation under a
discrete uniform distribution with support of reasonable size. We justify the
relevancy of the proposed framework via asymptotic and non-asymptotic
theoretical guarantees and show that DU-Shapley tends towards the Shapley value
when the number of data owners is large. The benefits of the proposed framework
are finally illustrated on several dataset valuation benchmarks. DU-Shapley
outperforms other Shapley value approximations, even when the number of data
owners is small.
- Abstract(参考訳): 多くの機械学習問題では、個々のデータセットを他のデータセットに集約する際に、インクリメンタルゲインを定量化するためにデータセットのバリュエーションを実行する必要がある。
セマンティックな例として、データセットのバリュエーションは、共同学習とフェデレーション学習に活用され、複数のデータ所有者間でのデータ共有のためのインセンティブを生み出している。
Shapley値は最近、公式な公理的正当化のためにこの目標を達成するための原則的なツールとして提案されている。
その計算はしばしば指数時間を必要とするため、モンテカルロ積分に基づく標準的な近似戦略が検討されている。
しかし、そのような一般的な近似手法は、場合によっては高価である。
本稿では、データセット評価問題の構造に関する知識を活用し、より効率的なシェープ値推定器を考案する。
本稿では, 離散一様シャプリー(DU-Shapley, DU-Shapley)と呼ばれるシャプリー値の新たな近似法を提案する。
我々は、漸近的かつ非漸近的な理論的保証を通じて提案フレームワークの妥当性を正当化し、データ所有者数が大きければ、DU-ShapleyがShapley値の傾向を示す。
提案フレームワークのメリットは、最終的にいくつかのデータセット評価ベンチマークで説明されている。
DU-Shapleyは、データ所有者の数が少ない場合でも、他のShapley値近似よりも優れている。
関連論文リスト
- Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Exploring Unified Perspective For Fast Shapley Value Estimation [77.15924044466976]
共有値の単純かつ効率的な推定法であるSimSHAPを提案する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - Differentially Private Shapley Values for Data Evaluation [3.616258473002814]
共有値は計算コストが高く、データセット全体を含んでいる。
そこで本研究では,階層型シェープアルゴリズム(Layered Shapley Algorithm)と呼ばれる新しい近似法を提案する。
本手法は, 確率的精度を保証するために, データの小さな (O(polylog(n))) ランダムサンプルと小さな (O(log n)$) 連立関係で動作することを示す。
論文 参考訳(メタデータ) (2022-06-01T14:14:24Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - A Distributional Framework for Data Valuation [26.065217938868617]
我々は,形式的な保証付きデータから値を推定するアルゴリズムを開発し,最先端のアルゴリズムよりも2桁高速に動作させる。
分散Shapleyを多様なデータセットに適用し,その実用性をデータ市場環境で実証する。
論文 参考訳(メタデータ) (2020-02-27T18:51:35Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。