論文の概要: A Note on "Efficient Task-Specific Data Valuation for Nearest Neighbor
Algorithms"
- arxiv url: http://arxiv.org/abs/2304.04258v1
- Date: Sun, 9 Apr 2023 15:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:42:15.540423
- Title: A Note on "Efficient Task-Specific Data Valuation for Nearest Neighbor
Algorithms"
- Title(参考訳): 最近傍のアルゴリズムにおける効率的なタスク特化データ評価」の一考察
- Authors: Jiachen T. Wang and Ruoxi Jia
- Abstract要約: Jiaらによると、K-Nearest Neighbors(KNN)モデルでは、Data Shapleyのアルゴリズムは驚くほどシンプルで効率的である。
KNNモデルの性能をよりよく反映した、より自然で解釈可能なユーティリティ関数を提案する。
我々の新しいアプローチは、ソフトラベルKNNSVと呼ばれ、元の方法と同じ時間を達成する。
- 参考スコア(独自算出の注目度): 7.4011772612133475
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Data valuation is a growing research field that studies the influence of
individual data points for machine learning (ML) models. Data Shapley, inspired
by cooperative game theory and economics, is an effective method for data
valuation. However, it is well-known that the Shapley value (SV) can be
computationally expensive. Fortunately, Jia et al. (2019) showed that for
K-Nearest Neighbors (KNN) models, the computation of Data Shapley is
surprisingly simple and efficient.
In this note, we revisit the work of Jia et al. (2019) and propose a more
natural and interpretable utility function that better reflects the performance
of KNN models. We derive the corresponding calculation procedure for the Data
Shapley of KNN classifiers/regressors with the new utility functions. Our new
approach, dubbed soft-label KNN-SV, achieves the same time complexity as the
original method. We further provide an efficient approximation algorithm for
soft-label KNN-SV based on locality sensitive hashing (LSH). Our experimental
results demonstrate that Soft-label KNN-SV outperforms the original method on
most datasets in the task of mislabeled data detection, making it a better
baseline for future work on data valuation.
- Abstract(参考訳): データ評価は、機械学習(ML)モデルに対する個々のデータポイントの影響を研究する、成長する研究分野である。
データシャプリー(data shapley)は、協調ゲーム理論と経済学に触発され、データ評価の効果的な方法である。
しかし、Shapley値(SV)が計算コストが高いことはよく知られている。
幸いなことに、Jia et al. (2019) は、K-Nearest Neighbors (KNN) モデルでは、Data Shapleyの計算は驚くほど単純で効率的であることを示した。
本稿では、Jia et al. (2019) の業績を再考し、KNNモデルの性能をよりよく反映した、より自然で解釈可能なユーティリティ関数を提案する。
新しいユーティリティ関数を用いて、kn分類器/レグレプタのデータシェープリーの対応する計算手順を導出する。
我々の新しいアプローチは、ソフトラベルKNN-SVと呼ばれ、元の方法と同じ時間複雑性を実現する。
さらに,局所性感度ハッシュ(LSH)に基づくソフトラベルKNN-SVの効率的な近似アルゴリズムを提案する。
実験の結果, ソフトラベルKNN-SVは, 誤りラベル付きデータ検出タスクにおけるほとんどのデータセットにおいて, 元の手法よりも優れており, 今後のデータ評価研究のベースラインとして優れていることがわかった。
関連論文リスト
- Neural Dynamic Data Valuation [4.286118155737111]
ニューラルダイナミックデータ評価(NDDV)という最適制御の観点から,新しいデータ評価手法を提案する。
本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。
さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。
論文 参考訳(メタデータ) (2024-04-30T13:39:26Z) - Efficient Data Shapley for Weighted Nearest Neighbor Algorithms [47.62605581521535]
WKNN-Shapleyは、重み付き$K$近辺アルゴリズム(WKNN-Shapley)のためのデータ共有の効率的な計算法である
我々は、WKNN-Shapleyの計算効率と、データ品質を非重み付きと比較した場合の優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-20T03:34:18Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Optimizing Data Shapley Interaction Calculation from O(2^n) to O(t n^2)
for KNN models [2.365702128814616]
STI-KNNは、O(t n2)時間におけるKNNモデルに対する正確なペア相互作用シェープ値を計算する革新的なアルゴリズムである。
STI-KNNを使用することで、個々のデータポイントの価値を効率よく正確に評価することができ、トレーニング結果が改善され、最終的には人工知能アプリケーションの有効性が向上する。
論文 参考訳(メタデータ) (2023-04-02T06:15:19Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Rank-R FNN: A Tensor-Based Learning Model for High-Order Data
Classification [69.26747803963907]
Rank-R Feedforward Neural Network (FNN)は、そのパラメータにCanonical/Polyadic分解を課すテンソルベースの非線形学習モデルである。
まず、入力をマルチリニアアレイとして扱い、ベクトル化の必要性を回避し、すべてのデータ次元に沿って構造情報を十分に活用することができる。
Rank-R FNNの普遍的な近似と学習性の特性を確立し、実世界のハイパースペクトルデータセットのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2021-04-11T16:37:32Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - A new hashing based nearest neighbors selection technique for big
datasets [14.962398031252063]
本稿では, 観測対象の近傍に直接近接する近隣住民の選別を可能にする新しい手法を提案する。
提案手法は,データ空間上に構築された仮想グリッドのサブセルにデータ空間を分割する。
提案アルゴリズムは,元のKNNよりも時間効率が良く,予測品質もKNNと同等である。
論文 参考訳(メタデータ) (2020-04-05T19:36:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。