論文の概要: Data valuation: The partial ordinal Shapley value for machine learning
- arxiv url: http://arxiv.org/abs/2305.01660v1
- Date: Tue, 2 May 2023 05:28:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 17:06:07.886289
- Title: Data valuation: The partial ordinal Shapley value for machine learning
- Title(参考訳): データ評価:機械学習における部分順序シェープ値
- Authors: Jie Liu, Peizheng Wang, Chao Wu
- Abstract要約: 本稿では、抽象代数学における群論による部分順序シェープ値の定義について研究する。
部分順序シェープ値の計算には指数時間が必要であるため,本論文では,結果を近似する3つのアルゴリズムも提案する。
- 参考スコア(独自算出の注目度): 5.303579738148908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data valuation using Shapley value has emerged as a prevalent research domain
in machine learning applications. However, it is a challenge to address the
role of order in data cooperation as most research lacks such discussion. To
tackle this problem, this paper studies the definition of the partial ordinal
Shapley value by group theory in abstract algebra. Besides, since the
calculation of the partial ordinal Shapley value requires exponential time,
this paper also gives three algorithms for approximating the results. The
Truncated Monte Carlo algorithm is derived from the classic Shapley value
approximation algorithm. The Classification Monte Carlo algorithm and the
Classification Truncated Monte Carlo algorithm are based on the fact that the
data points in the same class provide similar information, then we can
accelerate the calculation by leaving out some data points in each class.
- Abstract(参考訳): Shapley値を用いたデータ評価は、機械学習アプリケーションにおいて一般的な研究領域として現れている。
しかし、多くの研究がそのような議論を欠いているため、データ協力における秩序の役割に取り組むことは課題である。
この問題を解決するために、抽象代数学における群論による部分順序シェープ値の定義を研究する。
また,部分順序シャプリー値の計算には指数時間が必要となるため,結果近似のための3つのアルゴリズムも提案する。
Truncated Monte Carloアルゴリズムは、古典的なShapley値近似アルゴリズムに由来する。
分類モンテカルロアルゴリズムと分類切断モンテカルロアルゴリズムは、同一クラス内のデータポイントが類似した情報を提供するという事実に基づいており、各クラスにいくつかのデータポイントを残して計算を高速化することができる。
関連論文リスト
- Accelerated Shapley Value Approximation for Data Evaluation [3.707457963532597]
機械学習問題の構造的特性を活用することにより,データポイントのシェープ値をより効率的に近似できることを示す。
我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。
論文 参考訳(メタデータ) (2023-11-09T13:15:36Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - An Efficient Shapley Value Computation for the Naive Bayes Classifier [0.0]
本稿では, 単純ベイズ分類器の場合のShapley値の正確な解析式を提案する。
以上の結果から,本提案はアルゴリズムの複雑さを低く抑えた有意な結果をもたらすことが示唆された。
論文 参考訳(メタデータ) (2023-07-31T14:39:10Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Generalization Bounds for Data-Driven Numerical Linear Algebra [24.961270871124217]
データ駆動アルゴリズムは、トレーニングされた入力サンプルから学習することで、未知のアプリケーション固有の分布からの入力に内部構造やパラメータを適用することができる。
いくつかの最近の研究は、数値線形代数における問題にこのアプローチを適用し、性能において顕著な経験的利得を得た。
本研究では、Gupta と Roughgarden が提案するデータ駆動アルゴリズム選択のためのPAC学習フレームワークにおいて、これらのアルゴリズムの一般化境界を証明する。
論文 参考訳(メタデータ) (2022-06-16T02:23:45Z) - Beta Shapley: a Unified and Noise-reduced Data Valuation Framework for
Machine Learning [13.66570363867102]
データ共有の相当な一般化であるBeta Shapleyを提案する。
Beta Shapleyは、いくつかの一般的なデータバリュエーションメソッドを統合し、特別なケースとしてデータShapleyを含んでいる。
Beta Shapleyは、いくつかの下流MLタスクにおいて最先端のデータアセスメント手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T22:03:55Z) - Estimating leverage scores via rank revealing methods and randomization [50.591267188664666]
任意のランクの正方形密度あるいはスパース行列の統計レバレッジスコアを推定するアルゴリズムについて検討した。
提案手法は,高密度およびスパースなランダム化次元性還元変換の合成と階調明細化法を組み合わせることに基づく。
論文 参考訳(メタデータ) (2021-05-23T19:21:55Z) - Fast Hierarchical Games for Image Explanations [78.16853337149871]
本稿では,シェープリー係数の階層的拡張に基づく画像分類のモデル非依存な説明法を提案する。
他のShapleyベースの説明手法とは異なり、h-Shapはスケーラブルで近似を必要とせずに計算できる。
本手法は,合成データセット,医用画像シナリオ,一般コンピュータビジョン問題において,一般的なシャプリーベースおよび非サプリーベース手法と比較した。
論文 参考訳(メタデータ) (2021-04-13T13:11:02Z) - A Multilinear Sampling Algorithm to Estimate Shapley Values [4.771833920251869]
ゲーム理論に適用したマルチ線形拡張手法に基づく新しいサンプリング手法を提案する。
本手法は任意の機械学習モデル,特に多クラス分類や回帰問題に適用可能である。
論文 参考訳(メタデータ) (2020-10-22T21:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。