Fugu-MT 論文翻訳(概要): Towards Data Valuation via Asymmetric Data Shapley

論文の概要: Towards Data Valuation via Asymmetric Data Shapley

arxiv url: http://arxiv.org/abs/2411.00388v1
Date: Fri, 01 Nov 2024 06:28:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.200827
Title: Towards Data Valuation via Asymmetric Data Shapley
Title（参考訳）: 非対称データ共有によるデータ評価に向けて
Authors: Xi Zheng, Xiangyu Chang, Ruoxi Jia, Yong Tan,
Abstract要約: 従来のデータ共有フレームワークを非対称データ共有フレームワークに拡張します。我々は、その正確な計算のために、効率的な$k$-nearestの隣り合うアルゴリズムを導入する。我々は、機械学習タスクやデータ市場コンテキストにまたがって、我々のフレームワークの実践的適用性を実証する。
参考スコア（独自算出の注目度）: 17.521840311921274
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As data emerges as a vital driver of technological and economic advancements, a key challenge is accurately quantifying its value in algorithmic decision-making. The Shapley value, a well-established concept from cooperative game theory, has been widely adopted to assess the contribution of individual data sources in supervised machine learning. However, its symmetry axiom assumes all players in the cooperative game are homogeneous, which overlooks the complex structures and dependencies present in real-world datasets. To address this limitation, we extend the traditional data Shapley framework to asymmetric data Shapley, making it flexible enough to incorporate inherent structures within the datasets for structure-aware data valuation. We also introduce an efficient $k$-nearest neighbor-based algorithm for its exact computation. We demonstrate the practical applicability of our framework across various machine learning tasks and data market contexts. The code is available at: https://github.com/xzheng01/Asymmetric-Data-Shapley.
Abstract（参考訳）: データが技術的・経済的進歩の重要な要因として出現するにつれ、アルゴリズムによる意思決定において、その価値を正確に定量化することが重要な課題となっている。協調ゲーム理論から確立された概念であるShapley値は、教師付き機械学習における個々のデータソースの寄与を評価するために広く採用されている。しかし、その対称性公理は、協調ゲーム内のすべてのプレイヤーが同質であると仮定し、現実世界のデータセットに存在する複雑な構造や依存関係を見落としている。この制限に対処するため、従来のデータ共有フレームワークを非対称データ共有フレームワークに拡張し、構造を意識したデータ評価のためにデータセットに固有の構造を組み込むのに十分な柔軟性を提供します。また、その正確な計算のために、効率的な$k$-nearestの隣り合うアルゴリズムも導入する。我々は、機械学習タスクやデータ市場コンテキストにまたがって、我々のフレームワークの実践的適用性を実証する。コードは、https://github.com/xzheng01/Asymmetric-Data-Shapley.comで入手できる。

関連論文リスト

Geometric Data Valuation via Leverage Scores [0.2538209532048866]
本稿では,統計レバレッジスコアに基づくShapleyデータ評価の幾何学的代替手法を提案する。我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示す。また、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適化の$O(varepsilon)$以内のモデルを生成することを示す。
論文参考訳（メタデータ） (2025-11-03T22:20:50Z)
Kernel Representation and Similarity Measure for Incomplete Data [55.62595187178638]
不完全データの類似性を測定することは、Webマイニング、レコメンデーションシステム、ユーザー行動分析において基本的な課題である。従来のアプローチでは、不完全なデータを破棄するか、事前処理のステップとして計算を実行するかのいずれかであり、情報損失と類似性のバイアスが生じる。本稿では,カーネルの特徴空間における不完全データ間の類似性を,元の空間における明示的な計算なしで直接計算する,新しい類似度尺度を提案する。
論文参考訳（メタデータ） (2025-10-15T09:41:23Z)
Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [18.858879113762917]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文参考訳（メタデータ） (2025-05-22T02:46:03Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
CHG Shapley: Efficient Data Valuation and Selection towards Trustworthy Machine Learning [0.0]
そこで本研究では,各トレーニング時代のモデル性能における各データサブセットの有用性を近似したCHG(Compound of Hardness and Gradient)ユーティリティ関数を提案する。 CHGユーティリティ関数を用いて各データポイント毎の閉形式のShapley値を導出することにより、計算複雑性を1つのモデル再学習に還元する。さらに、CHG Shapleyをリアルタイムデータ選択に利用し、標準データセット、ラベルノイズデータセット、クラス不均衡データセットの3つの設定で実験を行います。
論文参考訳（メタデータ） (2024-06-17T16:48:31Z)
EcoVal: An Efficient Data Valuation Framework for Machine Learning [11.685518953430554]
機械学習におけるデータアセスメントのための既存のShapley値ベースのフレームワークは、計算コストが高い。機械学習モデルのデータを高速かつ実用的な方法で推定するために,効率的なデータアセスメントフレームワークであるEcoValを導入する。
論文参考訳（メタデータ） (2024-02-14T16:21:47Z)
Surprisal Driven $k$-NN for Robust and Interpretable Nonparametric Learning [1.4293924404819704]
我々は情報理論の観点から、隣り合う従来のアルゴリズムに新たな光を当てた。単一モデルを用いた分類,回帰,密度推定,異常検出などのタスクに対する頑健で解釈可能なフレームワークを提案する。我々の研究は、分類と異常検出における最先端の成果を達成することによって、アーキテクチャの汎用性を示す。
論文参考訳（メタデータ） (2023-11-17T00:35:38Z)
Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文参考訳（メタデータ） (2023-11-02T06:09:24Z)
On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文参考訳（メタデータ） (2023-10-24T14:01:53Z)
Delegating Data Collection in Decentralized Machine Learning [67.0537668772372]
分散機械学習(ML)エコシステムの出現に動機付けられ,データ収集のデリゲートについて検討する。我々は、2つの基本的な情報非対称性を扱う最適でほぼ最適な契約を設計する。最適効用の1-1/e分を達成できるような単純な線形契約により、主成分がそのような非対称性に対処できることが示される。
論文参考訳（メタデータ） (2023-09-04T22:16:35Z)
DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。 Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文参考訳（メタデータ） (2023-06-03T10:22:50Z)
Detection and Evaluation of Clusters within Sequential Data [58.720142291102135]
Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性を保証する。特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。ブロックマルコフ連鎖モデルの仮定は、実際に探索データ解析において有意義な洞察を得られることが判明した。
論文参考訳（メタデータ） (2022-10-04T15:22:39Z)
Data-Centric AI Requires Rethinking Data Notion [12.595006823256687]
この研究は、データの分類とコチェーンの概念によって提供される原則を統一することを提案する。分類学的概念では、データは、この構造を保存するために射を通して作用する数学的構造と見なされる。コチェーンの概念については、データは関心の離散領域で定義され、演算子を介して作用する関数と見なすことができる。
論文参考訳（メタデータ） (2021-10-06T04:00:38Z)
Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。私たちはuci成人国勢調査データセットの代表者および公正版を作成します。我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文参考訳（メタデータ） (2021-04-07T09:19:46Z)
Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文参考訳（メタデータ） (2020-07-02T19:51:54Z)
Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。 Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文参考訳（メタデータ） (2019-02-27T00:22:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。