論文の概要: Local Shapley: Model-Induced Locality and Optimal Reuse in Data Valuation
- arxiv url: http://arxiv.org/abs/2603.03672v1
- Date: Wed, 04 Mar 2026 02:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.164014
- Title: Local Shapley: Model-Induced Locality and Optimal Reuse in Data Valuation
- Title(参考訳): 局所共有:データ評価におけるモデル誘発局所性と最適再利用
- Authors: Xuan Yang, Hsi-Wen Chen, Ming-Syan Chen, Jian Pei,
- Abstract要約: Shapleyはデータバリュエーションの原則的な基盤だが、指数的連立空間のため、正確な計算は#Pハードである。
このモデルによって引き起こされる局所性は、モデルの計算経路によって定義されるサポートセットによって定式化する。
そこで我々はLSMRを提案する。LSMRは最適な部分集合中心アルゴリズムであり、各影響部分集合を正確に1度訓練する。
- 参考スコア(独自算出の注目度): 32.861851772914996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Shapley value provides a principled foundation for data valuation, but exact computation is #P-hard due to the exponential coalition space. Existing accelerations remain global and ignore a structural property of modern predictors: for a given test instance, only a small subset of training points influences the prediction. We formalize this model-induced locality through support sets defined by the model's computational pathway (e.g., neighbors in KNN, leaves in trees, receptive fields in GNNs), showing that Shapley computation can be projected onto these supports without loss when locality is exact. This reframes Shapley evaluation as a structured data processing problem over overlapping support-induced subset families rather than exhaustive coalition enumeration. We prove that the intrinsic complexity of Local Shapley is governed by the number of distinct influential subsets, establishing an information-theoretic lower bound on retraining operations. Guided by this result, we propose LSMR (Local Shapley via Model Reuse), an optimal subset-centric algorithm that trains each influential subset exactly once via support mapping and pivot scheduling. For larger supports, we develop LSMR-A, a reuse-aware Monte Carlo estimator that remains unbiased with exponential concentration, with runtime determined by the number of distinct sampled subsets rather than total draws. Experiments across multiple model families demonstrate substantial retraining reductions and speedups while preserving high valuation fidelity.
- Abstract(参考訳): Shapleyの値は、データバリュエーションの原則的な基盤を提供するが、指数的連立空間のため、正確な計算は#Pハードである。
既存の加速器はグローバルに留まり、現代の予測器の構造的特性を無視している。
我々は、モデルの計算経路で定義されたサポートセット(例えば、KNNの隣人、木の葉、GNNの受容場)を通して、このモデルによって引き起こされる局所性を形式化し、局所性が正確であれば損失なくシャプリー計算がこれらのサポート上に投影可能であることを示す。
これによりShapleyの評価は、完全連立列挙ではなく、サポートによって引き起こされるサブセットの重複よりも、構造化されたデータ処理の問題として再編成される。
局所シェープの内在的な複雑さは、異なる影響力のあるサブセットの数によって支配され、再学習操作に対する情報理論の下限が確立されていることを証明している。
この結果から,LSMR(Local Shapley via Model Reuse)を提案する。
より大きな支援のために、我々は指数集中に偏らない再利用可能なモンテカルロ推定器LSMR-Aを開発した。
複数のモデルファミリに対する実験は、高いバリュエーションの忠実さを保ちながら、大幅なリトレーニングの削減とスピードアップを示す。
関連論文リスト
- An Odd Estimator for Shapley Values [19.262788739385012]
Shapley値は、特徴の重要性、データバリュエーション、因果推論を含む、機械学習の帰属のためのフレームワークである。
我々は、Shapley値が集合関数の奇数成分にのみ依存していることを証明する。
奇数部分空間のみに回帰を行う一貫した推定器であるOddSHAPを提案する。
論文 参考訳(メタデータ) (2026-02-01T19:07:16Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Improving the Weighting Strategy in KernelSHAP [0.8057006406834466]
説明可能なAI(XAI)では、Shapley値が、複雑な機械学習モデルによる予測を説明する一般的なフレームワークである。
本稿では,結果のShapley値近似のばらつきを低減するために,決定論的重みを1つに置き換えるKernelSHAPの新たな改良を提案する。
提案手法は, 近似したShapley値と同じ精度を保ちながら, 必要なコントリビューション関数の評価を5%$から50%$に削減することができる。
論文 参考訳(メタデータ) (2024-10-07T10:02:31Z) - Robust Second-order LiDAR Bundle Adjustment Algorithm Using Mean Squared Group Metric [5.153195958837083]
我々は,LiDAR BAアルゴリズムの最適化目標を構築するために,新しい平均2乗群計量(MSGM)を提案する。
堅牢なカーネル関数を統合することで、BAアルゴリズムに関わるメトリクスを再重み付けし、ソリューションプロセスの堅牢性を高める。
論文 参考訳(メタデータ) (2024-09-03T12:53:39Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Consensus-Adaptive RANSAC [104.87576373187426]
本稿では,パラメータ空間の探索を学習する新しいRANSACフレームワークを提案する。
注意機構は、ポイント・ツー・モデル残差のバッチで動作し、軽量のワンステップ・トランスフォーマーで見いだされたコンセンサスを考慮するために、ポイント・ツー・モデル推定状態を更新する。
論文 参考訳(メタデータ) (2023-07-26T08:25:46Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - Efficient Shapley Values Estimation by Amortization for Text
Classification [66.7725354593271]
我々は,各入力特徴のシェープ値を直接予測し,追加のモデル評価を行なわずに補正モデルを開発する。
2つのテキスト分類データセットの実験結果から、アモルタイズされたモデルでは、Shapley Valuesを最大60倍のスピードアップで正確に見積もっている。
論文 参考訳(メタデータ) (2023-05-31T16:19:13Z) - On Locality of Local Explanation Models [0.43012765978447565]
本稿では,シェープリー値の局所的解釈性を向上させる近傍参照分布の定式化について考察する。
我々は,近隣シェープの値が,局所モデル行動の洞察を与える意味的なスパース特徴関連属性を同定するのを観察する。
論文 参考訳(メタデータ) (2021-06-24T16:20:38Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。