論文の概要: Towards Data Valuation via Asymmetric Data Shapley
- arxiv url: http://arxiv.org/abs/2411.00388v1
- Date: Fri, 01 Nov 2024 06:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:47.559282
- Title: Towards Data Valuation via Asymmetric Data Shapley
- Title(参考訳): 非対称データ共有によるデータ評価に向けて
- Authors: Xi Zheng, Xiangyu Chang, Ruoxi Jia, Yong Tan,
- Abstract要約: 従来のデータ共有フレームワークを非対称データ共有フレームワークに拡張します。
我々は、その正確な計算のために、効率的な$k$-nearestの隣り合うアルゴリズムを導入する。
我々は、機械学習タスクやデータ市場コンテキストにまたがって、我々のフレームワークの実践的適用性を実証する。
- 参考スコア(独自算出の注目度): 17.521840311921274
- License:
- Abstract: As data emerges as a vital driver of technological and economic advancements, a key challenge is accurately quantifying its value in algorithmic decision-making. The Shapley value, a well-established concept from cooperative game theory, has been widely adopted to assess the contribution of individual data sources in supervised machine learning. However, its symmetry axiom assumes all players in the cooperative game are homogeneous, which overlooks the complex structures and dependencies present in real-world datasets. To address this limitation, we extend the traditional data Shapley framework to asymmetric data Shapley, making it flexible enough to incorporate inherent structures within the datasets for structure-aware data valuation. We also introduce an efficient $k$-nearest neighbor-based algorithm for its exact computation. We demonstrate the practical applicability of our framework across various machine learning tasks and data market contexts. The code is available at: https://github.com/xzheng01/Asymmetric-Data-Shapley.
- Abstract(参考訳): データが技術的・経済的進歩の重要な要因として出現するにつれ、アルゴリズムによる意思決定において、その価値を正確に定量化することが重要な課題となっている。
協調ゲーム理論から確立された概念であるShapley値は、教師付き機械学習における個々のデータソースの寄与を評価するために広く採用されている。
しかし、その対称性公理は、協調ゲーム内のすべてのプレイヤーが同質であると仮定し、現実世界のデータセットに存在する複雑な構造や依存関係を見落としている。
この制限に対処するため、従来のデータ共有フレームワークを非対称データ共有フレームワークに拡張し、構造を意識したデータ評価のためにデータセットに固有の構造を組み込むのに十分な柔軟性を提供します。
また、その正確な計算のために、効率的な$k$-nearestの隣り合うアルゴリズムも導入する。
我々は、機械学習タスクやデータ市場コンテキストにまたがって、我々のフレームワークの実践的適用性を実証する。
コードは、https://github.com/xzheng01/Asymmetric-Data-Shapley.comで入手できる。
関連論文リスト
- EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。
機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文 参考訳(メタデータ) (2024-02-14T16:21:47Z) - Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric
Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。
単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。
我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文 参考訳(メタデータ) (2023-11-17T00:35:38Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Delegating Data Collection in Decentralized Machine Learning [67.0537668772372]
分散機械学習(ML)エコシステムの出現に動機付けられ,データ収集のデリゲートについて検討する。
我々は、2つの基本的な情報非対称性を扱う最適でほぼ最適な契約を設計する。
最適効用の1-1/e分を達成できるような単純な線形契約により、主成分がそのような非対称性に対処できることが示される。
論文 参考訳(メタデータ) (2023-09-04T22:16:35Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。
特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。
ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文 参考訳(メタデータ) (2022-10-04T15:22:39Z) - Data-Centric AI Requires Rethinking Data Notion [12.595006823256687]
この研究は、データの分類とコチェーンの概念によって提供される原則を統一することを提案する。
分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。
コチェーンの概念については、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。
論文 参考訳(メタデータ) (2021-10-06T04:00:38Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。
我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文 参考訳(メタデータ) (2020-07-02T19:51:54Z) - Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。
Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。
本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文 参考訳(メタデータ) (2019-02-27T00:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。