Fugu-MT 論文翻訳(概要): DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation

論文の概要: DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation

arxiv url: http://arxiv.org/abs/2306.02071v2
Date: Mon, 17 Jun 2024 19:19:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-20 05:23:38.637619
Title: DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation
Title（参考訳）: DU-Shapley: 効率的なデータセット評価のためのShapley Value Proxy
Authors: Felipe Garrido-Lucero, Benjamin Heymann, Maxime Vono, Patrick Loiseau, Vianney Perchet,
Abstract要約: 我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。 Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
参考スコア（独自算出の注目度）: 23.646508094051768
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider the dataset valuation problem, that is, the problem of quantifying the incremental gain, to some relevant pre-defined utility of a machine learning task, of aggregating an individual dataset to others. The Shapley value is a natural tool to perform dataset valuation due to its formal axiomatic justification, which can be combined with Monte Carlo integration to overcome the computational tractability challenges. Such generic approximation methods, however, remain expensive in some cases. In this paper, we exploit the knowledge about the structure of the dataset valuation problem to devise more efficient Shapley value estimators. We propose a novel approximation, referred to as discrete uniform Shapley, which is expressed as an expectation under a discrete uniform distribution with support of reasonable size. We justify the relevancy of the proposed framework via asymptotic and non-asymptotic theoretical guarantees and illustrate its benefits via an extensive set of numerical experiments.
Abstract（参考訳）: 我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインの定量化の問題を、個々のデータセットを他のデータセットに集約する、機械学習タスクの関連する事前定義されたユーティリティに考慮する。 Shapleyの値は、その正式な公理的正当化によってデータセットのバリュエーションを実行する自然なツールであり、モンテカルロ統合と組み合わせて計算的トラクタビリティの課題を克服することができる。しかし、そのような一般的な近似法は、場合によっては高価である。本稿では、データセット評価問題の構造に関する知識を活用し、より効率的なシェープ値推定器を考案する。そこで本研究では,離散一様シャプリーとよばれる新しい近似法を提案する。我々は、漸近的および非漸近的理論的保証を通じて提案フレームワークの妥当性を正当化し、その利点を広範な数値実験を通して説明する。

関連論文リスト

An Odd Estimator for Shapley Values [19.262788739385012]
Shapley値は、特徴の重要性、データバリュエーション、因果推論を含む、機械学習の帰属のためのフレームワークである。我々は、Shapley値が集合関数の奇数成分にのみ依存していることを証明する。奇数部分空間のみに回帰を行う一貫した推定器であるOddSHAPを提案する。
論文参考訳（メタデータ） (2026-02-01T19:07:16Z)
Geometric Data Valuation via Leverage Scores [0.2538209532048866]
本稿では,統計レバレッジスコアに基づくShapleyデータ評価の幾何学的代替手法を提案する。我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示す。また、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適化の$O(varepsilon)$以内のモデルを生成することを示す。
論文参考訳（メタデータ） (2025-11-03T22:20:50Z)
SIM-Shapley: A Stable and Computationally Efficient Approach to Shapley Value Approximation [8.323065815365602]
共有値(SV)法は、複雑なモデルにおける特徴帰属の原則的な枠組みを提供するが、高い計算コストがかかる。最適化にインスパイアされた安定かつ効率的な近似法である,共有値近似のための反復モーメント(SIM-Shapley)を提案する。我々の数値実験では、SIM-Shapleyは最先端のベースラインと比較して計算時間を最大85%削減する。
論文参考訳（メタデータ） (2025-05-13T03:23:10Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Shapley Value Approximation Based on k-Additive Games [21.023521613326654]
シェープリー値(Shapley value)は、支払いを複数のエージェントに分けなければならない公平な分割問題に対する一般的な解である。その人気と公理的な正当化にもかかわらず、Shapleyの値は、関係するエンティティの数と指数関数的にスケールする計算複雑性に悩まされている。我々は、$k$-additive surrogateゲームに適合する新しい近似法であるSVA$k_textADD$を提案する。
論文参考訳（メタデータ） (2025-02-07T08:52:57Z)
Variational Shapley Network: A Probabilistic Approach to Self-Explaining Shapley values with Uncertainty Quantification [2.6699011287124366]
シェープ価値は、モデル決定プロセスの解明のための機械学習(ML)の基礎ツールとして現れている。本稿では,Shapley値の計算を大幅に単純化し,単一のフォワードパスしか必要としない,新しい自己説明手法を提案する。
論文参考訳（メタデータ） (2024-02-06T18:09:05Z)
Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文参考訳（メタデータ） (2023-11-02T06:09:24Z)
Shapley Value on Probabilistic Classifiers [6.163093930860032]
機械学習(ML)の文脈では、データ評価手法は、MLモデルの実用性に対する各データポイントの寄与を公平に測定することを目的としている。従来のShapleyベースのデータ評価手法は、有益と有害なトレーニングデータポイントを効果的に区別するものではない。確率的効用関数を構成することにより確率的シェープ(P-Shapley)値を提案する。
論文参考訳（メタデータ） (2023-06-12T15:09:13Z)
Efficient Shapley Values Estimation by Amortization for Text Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。 2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文参考訳（メタデータ） (2023-05-31T16:19:13Z)
An Imprecise SHAP as a Tool for Explaining the Class Probability Distributions under Limited Training Data [5.8010446129208155]
クラス確率分布が不正確で分布の集合で表される場合に、不正確なSHAPを提案する。不正確なSHAPの背後にある最初のアイデアは、機能の限界貢献を計算するための新しいアプローチである。第二のアイデアは、間隔値シャプリー値の計算と縮小に対する一般的なアプローチを考える試みである。
論文参考訳（メタデータ） (2021-06-16T20:30:26Z)
Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文参考訳（メタデータ） (2020-12-29T04:08:38Z)
Efficient computation and analysis of distributional Shapley values [15.322542729755998]
線形回帰、二項分類、非パラメトリック密度推定の標準問題に対するDShapleyの最初の解析式を導出する。我々の公式は直接解釈可能であり、異なる種類のデータに対してどのように値が変化するかについての定量的な洞察を提供する。
論文参考訳（メタデータ） (2020-07-02T19:51:54Z)
$\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文参考訳（メタデータ） (2020-06-13T06:09:27Z)
GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文参考訳（メタデータ） (2020-02-21T00:27:52Z)
Towards Efficient Data Valuation Based on the Shapley Value [65.4167993220998]
本稿では,Shapley値を用いたデータ評価の問題点について検討する。 Shapleyの値は、データ値の概念に対して多くのデシダータを満たすユニークなペイオフスキームを定義する。本稿では,Shapley値を近似する効率的なアルゴリズムのレパートリーを提案する。
論文参考訳（メタデータ） (2019-02-27T00:22:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。