論文の概要: Splines-Based Feature Importance in Kolmogorov-Arnold Networks: A Framework for Supervised Tabular Data Dimensionality Reduction
- arxiv url: http://arxiv.org/abs/2509.23366v1
- Date: Sat, 27 Sep 2025 15:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.18603
- Title: Splines-Based Feature Importance in Kolmogorov-Arnold Networks: A Framework for Supervised Tabular Data Dimensionality Reduction
- Title(参考訳): Kolmogorov-Arnold ネットワークにおけるスプラインに基づく特徴量の重要性: 教師付きタブラルデータ次元化のためのフレームワーク
- Authors: Ange-Clément Akazan, Verlon Roel Mbingui,
- Abstract要約: 我々は4つのkanベースのセレクタ(textitKAN-L1$, $textitKAN-L2$, $textitKAN-SI$, $textitKAN-KO$)を導入し、それらを古典的なベースラインと比較する。
F1 スコアと $R2$ スコアの結果から、kan ベースのセレクタ、特に $textitKAN-L2$, $textitKAN-L1$, $textitKAN-SI$, $textitKAN
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-dimensional datasets require effective feature selection to improve predictive performance, interpretability, and robustness. We propose and evaluate feature selection methods for tabular datasets based on Kolmogorov-Arnold networks (KANs), which parameterize feature transformations through splines, enabling direct access to interpretable importance measures. We introduce four KAN-based selectors ($\textit{KAN-L1}$, $\textit{KAN-L2}$, $\textit{KAN-SI}$, $\textit{KAN-KO}$) and compare them against classical baselines (LASSO, Random Forest, Mutual Information, SVM-RFE) across multiple classification and regression tabular dataset benchmarks. Average (over three retention levels: 20\%, 40\%, and 60\%) F1 scores and $R^2$ score results reveal that KAN-based selectors, particularly $\textit{KAN-L2}$, $\textit{KAN-L1}$, $\textit{KAN-SI}$, and $\textit{KAN-KO}$, are competitive with and sometimes superior to classical baselines in structured and synthetic datasets. However, $\textit{KAN-L1}$ is often too aggressive in regression, removing useful features, while $\textit{KAN-L2}$ underperforms in classification, where simple coefficient shrinkage misses complex feature interactions. $\textit{KAN-L2}$ and $\textit{KAN-SI}$ provide robust performance on noisy regression datasets and heterogeneous datasets, aligning closely with ensemble predictors. In classification tasks, KAN selectors such as $\textit{KAN-L1}$, $\textit{KAN-KO}$, and $\textit{KAN-SI}$ sometimes surpass the other selectors by eliminating redundancy, particularly in high-dimensional multi-class data. Overall, our findings demonstrate that KAN-based feature selection provides a powerful and interpretable alternative to traditional methods, capable of uncovering nonlinear and multivariate feature relevance beyond sparsity or impurity-based measures.
- Abstract(参考訳): 高次元データセットは、予測性能、解釈可能性、堅牢性を改善するために効果的な特徴選択を必要とする。
そこで我々は,KAN(Kolmogorov-Arnold Network)に基づく表付きデータセットの特徴選択手法を提案し,評価する。
我々は4つの Kan ベースのセレクタ (\textit{KAN-L1}$, $\textit{KAN-L2}$, $\textit{KAN-SI}$, $\textit{KAN-KO}$) を導入し、複数の分類および回帰表データセットベンチマークで古典的なベースライン (LASSO, Random Forest, Mutual Information, SVM-RFE) と比較した。
平均値(20\%、40\%、60\%)のF1スコアと$R^2$スコアの結果、特にKanベースのセレクタ、特に$\textit{KAN-L2}$、$\textit{KAN-L1}$、$\textit{KAN-SI}$、$\textit{KAN-KO}$は、構造化データセットや合成データセットの古典的ベースラインと競合し、時には優位である。
しかし、$\textit{KAN-L1}$は回帰において過度に攻撃的であり、有用な特徴を取り除き、$\textit{KAN-L2}$は分類において過小評価される。
$\textit{KAN-L2}$と$\textit{KAN-SI}$は、ノイズの多い回帰データセットとヘテロジニアスデータセットに対して堅牢なパフォーマンスを提供し、アンサンブル予測と密接に一致させる。
分類タスクでは、例えば $\textit{KAN-L1}$, $\textit{KAN-KO}$, $\textit{KAN-SI}$ は、特に高次元のマルチクラスデータにおいて、冗長性を排除して他のセレクタを超えることがある。
以上の結果から,kan-based feature selectionは従来の手法に代わる強力かつ解釈可能な代替手段であり,不純物や不純物以外の非線形・多変量的特徴の関連性を明らかにすることができることがわかった。
関連論文リスト
- Beyond Softmax: A Natural Parameterization for Categorical Random Variables [61.709831225296305]
階層的なバイナリ分割のシーケンスで構成される関数である$textitcatnat$関数を紹介します。
実験により,提案した関数は学習効率を向上し,一貫した試験性能を特徴とするモデルが得られることを示した。
論文 参考訳(メタデータ) (2025-09-29T12:55:50Z) - Domain2Vec: Vectorizing Datasets to Find the Optimal Data Mixture without Training [53.07879717463279]
textscDomain2Vecは任意のデータセットを複数のEmphmetaドメインの線形結合に分解する
textscDomain2Vecは、最小の計算オーバーヘッドでダウンストリームタスクのパフォーマンスを向上させるデータミックスを見つけるのに役立つ。
論文 参考訳(メタデータ) (2025-06-12T17:53:51Z) - Enhancing Unsupervised Feature Selection via Double Sparsity Constrained Optimization [6.342485512772862]
教師なし単一特徴選択(UFS)は機械学習やパターン認識に広く応用されている。
既存の手法のほとんどはスパーシリティしか考慮していないため、サブセットを選択し、元のサブセットと区別することは困難である。
本稿では,DSCOFSと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-01T05:05:46Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Variance Alignment Score: A Simple But Tough-to-Beat Data Selection
Method for Multimodal Contrastive Learning [17.40655778450583]
本稿では、Sigma_texttest, Sigma_irangle$という形式を持つVariance Alignment Score(VAS)という原則付き計量を提案する。
VASとCLIPのスコアを合わせると、ノイズの多いデータセットDataCompの38評価セットに1.3%、高品質なデータセットCC12MのVTABに2.5%の差でベースラインを上回ります。
論文 参考訳(メタデータ) (2024-02-03T06:29:04Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - Classification of high-dimensional data with spiked covariance matrix structure [0.5156484100374059]
我々は高次元データの分類問題を$n$で研究し、$p$の特徴を観察する。
本稿では,まず,次元還元空間における分類に先立って特徴ベクトルの次元還元を行う適応型分類器を提案する。
結果の分類器は、$n rightarrow infty$ および $s sqrtn-1 ln p rightarrow 0$ のときにベイズ最適であることが示される。
論文 参考訳(メタデータ) (2021-10-05T11:26:53Z) - On the Adversarial Robustness of LASSO Based Feature Selection [72.54211869067979]
検討されたモデルでは、悪意のある敵がデータセット全体を観察し、レスポンス値やフィーチャーマトリックスを慎重に修正する。
両レベルの最適化問題として、敵の修正戦略を定式化する。
合成および実データを用いた数値的な例は,本手法が効率的かつ効果的であることを示している。
論文 参考訳(メタデータ) (2020-10-20T05:51:26Z) - Imbalance Learning for Variable Star Classification [0.0]
我々は,不均衡な学習問題を克服する階層型機械学習分類手法を開発した。
私たちは'データレベル'アプローチを使用して、トレーニングデータを直接拡張し、表現不足のクラスをよりよく記述します。
階層モデルで$texttGpFit$を使用すると,より高い分類率が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-27T19:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。