論文の概要: Geometric Data Valuation via Leverage Scores
- arxiv url: http://arxiv.org/abs/2511.02100v1
- Date: Mon, 03 Nov 2025 22:20:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.696487
- Title: Geometric Data Valuation via Leverage Scores
- Title(参考訳): レバレッジスコアによる幾何学的データ評価
- Authors: Rodrigo Mendoza-Smith,
- Abstract要約: 本稿では,統計レバレッジスコアに基づくShapleyデータ評価の幾何学的代替手法を提案する。
我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示す。
また、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適化の$O(varepsilon)$以内のモデルを生成することを示す。
- 参考スコア(独自算出の注目度): 0.2538209532048866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Shapley data valuation provides a principled, axiomatic framework for assigning importance to individual datapoints, and has gained traction in dataset curation, pruning, and pricing. However, it is a combinatorial measure that requires evaluating marginal utility across all subsets of the data, making it computationally infeasible at scale. We propose a geometric alternative based on statistical leverage scores, which quantify each datapoint's structural influence in the representation space by measuring how much it extends the span of the dataset and contributes to the effective dimensionality of the training problem. We show that our scores satisfy the dummy, efficiency, and symmetry axioms of Shapley valuation and that extending them to \emph{ridge leverage scores} yields strictly positive marginal gains that connect naturally to classical A- and D-optimal design criteria. We further show that training on a leverage-sampled subset produces a model whose parameters and predictive risk are within $O(\varepsilon)$ of the full-data optimum, thereby providing a rigorous link between data valuation and downstream decision quality. Finally, we conduct an active learning experiment in which we empirically demonstrate that ridge-leverage sampling outperforms standard baselines without requiring access gradients or backward passes.
- Abstract(参考訳): シェープデータのバリュエーションは、個々のデータポイントに重要度を割り当てるための原則付き、公理的なフレームワークを提供し、データセットのキュレーション、プルーニング、価格設定で注目を集めている。
しかし、これはデータのすべてのサブセットにまたがって限界効用を評価する必要のある組合せ測度であり、大規模に計算不可能である。
統計的レバレッジスコアに基づく幾何学的代替案を提案し,各データポイントの表現空間における構造的影響を,データセットの範囲をどの程度拡張するかを測定して定量化し,学習問題の有効次元化に寄与する。
我々のスコアはシャプリー評価のダミー、効率、対称性の公理を満たすことを示し、それらを 'emph{ridge leverage scores' に拡張すると、古典的なA-およびD-最適設計基準に自然に結びつく厳密な正の利得が得られることを示した。
さらに、レバレッジサンプリングされたサブセットのトレーニングは、パラメータと予測リスクが全データ最適値の$O(\varepsilon)$以内のモデルを生成し、データアセスメントと下流決定品質の厳密なリンクを提供する。
最後に,リッジ・レベレッジサンプリングが,アクセス勾配や後方通過を必要とせず,標準ベースラインよりも優れていることを実証的に実証する能動的学習実験を行った。
関連論文リスト
- Losing is for Cherishing: Data Valuation Based on Machine Unlearning and Shapley Value [24.00172524434103]
我々は、機械学習を利用してデータ値を効率的に推定する新しいフレームワークUnlearning Shapleyを提案する。
提案手法は,モンテカルロサンプリングによるシェープリー値の計算を行い,再学習を回避し,全データへの依存を排除した。
この作業は、データバリュエーション理論と実践的デプロイメントのギャップを埋め、現代のAIエコシステムにスケーラブルでプライバシに準拠したソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-22T02:46:03Z) - DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - On the Impact of the Utility in Semivalue-based Data Valuation [11.207084981290123]
半値に基づくデータ評価は、協調ゲーム理論の直観を用いて、各データポイントを下流タスクへの貢献を反映した値に割り当てる。
ユーティリティの変更に対して、半値ベースのデータバリュエーションはどの程度堅牢か?
本稿では,実用性の変化に伴ってデータ評価結果がどの程度変化するかを実践者に知らせる,明示的な堅牢度尺度を中心とした実践的方法論を提案する。
論文 参考訳(メタデータ) (2025-02-10T15:42:38Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Asymptotic Analysis of an Ensemble of Randomly Projected Linear
Discriminants [94.46276668068327]
[1]では、ランダムに投影された線形判別式のアンサンブルを用いてデータセットを分類する。
我々は,計算コストのかかるクロスバリデーション推定器の代替として,誤分類確率の一貫した推定器を開発する。
また、実データと合成データの両方で投影次元を調整するための推定器の使用を実証する。
論文 参考訳(メタデータ) (2020-04-17T12:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。