論文の概要: Shapley-Inspired Feature Weighting in $k$-means with No Additional Hyperparameters
- arxiv url: http://arxiv.org/abs/2508.07952v1
- Date: Mon, 11 Aug 2025 13:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.106018
- Title: Shapley-Inspired Feature Weighting in $k$-means with No Additional Hyperparameters
- Title(参考訳): ハイパーパラメータを付加しない$k$-meansにおけるシェープ型特徴重み付け
- Authors: Richard J. Fawley, Renato Cordeiro de Amorim,
- Abstract要約: クラスタリングアルゴリズムは、すべての機能がデータ構造に等しく寄与していると仮定することが多い。
SHARK(Shapley Reweighted $k$-means)は,Shapley値を用いた特徴量クラスタリングアルゴリズムである。
合成および実世界のデータセットの実験は、SHARKが既存の手法と一貫して一致し、性能を向上していることを示している。
- 参考スコア(独自算出の注目度): 2.3940819037450987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Clustering algorithms often assume all features contribute equally to the data structure, an assumption that usually fails in high-dimensional or noisy settings. Feature weighting methods can address this, but most require additional parameter tuning. We propose SHARK (Shapley Reweighted $k$-means), a feature-weighted clustering algorithm motivated by the use of Shapley values from cooperative game theory to quantify feature relevance, which requires no additional parameters beyond those in $k$-means. We prove that the $k$-means objective can be decomposed into a sum of per-feature Shapley values, providing an axiomatic foundation for unsupervised feature relevance and reducing Shapley computation from exponential to polynomial time. SHARK iteratively re-weights features by the inverse of their Shapley contribution, emphasising informative dimensions and down-weighting irrelevant ones. Experiments on synthetic and real-world data sets show that SHARK consistently matches or outperforms existing methods, achieving superior robustness and accuracy, particularly in scenarios where noise may be present. Software: https://github.com/rickfawley/shark.
- Abstract(参考訳): クラスタリングアルゴリズムは、すべての機能がデータ構造に等しく寄与していると仮定することが多い。
特徴重み付け手法はこれに対処できるが、ほとんどの場合、追加のパラメータチューニングを必要とする。
SHARK(Shapley Reweighted $k$-means)は,協調ゲーム理論のShapley値を用いて特徴値の定量化を行う特徴重み付きクラスタリングアルゴリズムである。
我々は、$k$-meansの目的を、機能ごとのShapley値の和に分解できることを証明し、教師なし特徴関係の公理的基盤を提供し、Shapley計算を指数時間から多項式時間に短縮する。
SHARKは、Shapleyへの貢献の逆転、情報的次元の強調、無関係な部分の重み付けによって、反復的に特徴を再重み付けする。
合成および実世界のデータセットの実験では、SHARKは既存の手法と一貫して一致し、特にノイズが存在する可能性のあるシナリオにおいて、優れた堅牢性と精度を達成する。
ソフトウェア:https://github.com/rickfawley/shark。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Improving the Weighting Strategy in KernelSHAP [0.8057006406834466]
説明可能なAI(XAI)では、Shapley値が、複雑な機械学習モデルによる予測を説明する一般的なフレームワークである。
本稿では,結果のShapley値近似のばらつきを低減するために,決定論的重みを1つに置き換えるKernelSHAPの新たな改良を提案する。
提案手法は, 近似したShapley値と同じ精度を保ちながら, 必要なコントリビューション関数の評価を5%$から50%$に削減することができる。
論文 参考訳(メタデータ) (2024-10-07T10:02:31Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - DU-Shapley: A Shapley Value Proxy for Efficient Dataset Valuation [23.646508094051768]
我々は、データセットのバリュエーションの問題、すなわち、インクリメンタルゲインを定量化する問題を考える。
Shapleyの値は、その正式な公理的正当化のためにデータセットのバリュエーションを実行する自然なツールである。
本稿では,離散一様分布下での予測として表現される離散一様シャプリーと呼ばれる新しい近似を提案する。
論文 参考訳(メタデータ) (2023-06-03T10:22:50Z) - WeightedSHAP: analyzing and improving Shapley based feature attributions [17.340091573913316]
共有価値(Shapley value)は、個々の特徴の影響を測定するための一般的なアプローチである。
WeightedSHAPを提案する。これはShapleyの価値を一般化し、データから直接フォーカスする限界貢献を学習する。
いくつかの実世界のデータセットにおいて、WeightedSHAPによって識別される影響のある特徴がモデルの予測を再カプセル化できることを示す。
論文 参考訳(メタデータ) (2022-09-27T14:34:07Z) - Shapley-NAS: Discovering Operation Contribution for Neural Architecture
Search [96.20505710087392]
ニューラルアーキテクチャ探索のための演算寄与度(Shapley-NAS)を評価するためのShapley値に基づく手法を提案する。
提案手法は,光探索コストに比例して最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-20T14:41:49Z) - Lassoed Tree Boosting [53.56229983630983]
有界断面変動のカドラー関数の大きな非パラメトリック空間において,早期に停止するn-1/4$ L2の収束速度を持つ勾配向上木アルゴリズムを証明した。
我々の収束証明は、ネストしたドンスカー類の経験的損失最小化子による早期停止に関する新しい一般定理に基づいている。
論文 参考訳(メタデータ) (2022-05-22T00:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。