論文の概要: Interpretable Kernels
- arxiv url: http://arxiv.org/abs/2508.15932v1
- Date: Thu, 21 Aug 2025 19:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.174627
- Title: Interpretable Kernels
- Title(参考訳): 解釈可能なカーネル
- Authors: Patrick J. F. Groenen, Michael Greenacre,
- Abstract要約: 非線形予測のためのカーネルの使用は機械学習で広く行われている。
現在のカーネルの使用における大きな欠点は、元の特徴の解釈が失われることである。
観測値よりも多くの特徴が存在するような幅広い特徴行列の場合、カーネルの解は線形結合の観点で再表現できる、と我々は論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of kernels for nonlinear prediction is widespread in machine learning. They have been popularized in support vector machines and used in kernel ridge regression, amongst others. Kernel methods share three aspects. First, instead of the original matrix of predictor variables or features, each observation is mapped into an enlarged feature space. Second, a ridge penalty term is used to shrink the coefficients on the features in the enlarged feature space. Third, the solution is not obtained in this enlarged feature space, but through solving a dual problem in the observation space. A major drawback in the present use of kernels is that the interpretation in terms of the original features is lost. In this paper, we argue that in the case of a wide matrix of features, where there are more features than observations, the kernel solution can be re-expressed in terms of a linear combination of the original matrix of features and a ridge penalty that involves a special metric. Consequently, the exact same predicted values can be obtained as a weighted linear combination of the features in the usual manner and thus can be interpreted. In the case where the number of features is less than the number of observations, we discuss a least-squares approximation of the kernel matrix that still allows the interpretation in terms of a linear combination. It is shown that these results hold for any function of a linear combination that minimizes the coefficients and has a ridge penalty on these coefficients, such as in kernel logistic regression and kernel Poisson regression. This work makes a contribution to interpretable artificial intelligence.
- Abstract(参考訳): 非線形予測のためのカーネルの使用は機械学習で広く行われている。
サポートベクターマシンで普及し、カーネルリッジレグレッションなどで使用されている。
カーネルメソッドは3つの側面を共有します。
まず、予測変数や特徴の元の行列の代わりに、各観測結果を拡大された特徴空間にマッピングする。
第二に、拡大した特徴空間の特徴の係数を縮小するために尾根ペナルティ項が用いられる。
第三に、この拡張された特徴空間では解が得られず、観測空間における双対問題を解くことによって得られる。
現在のカーネルの使用における大きな欠点は、元の特徴の解釈が失われることである。
本稿では,観測値よりも多くの特徴量が存在する広い特徴量行列の場合,元の特徴量行列と特別な計量を含む隆起ペナルティを線形に組み合わせてカーネル解を表現できることを論じる。
これにより、通常の方法で特徴の重み付けされた線形結合として、全く同じ予測値が得られるので、解釈することができる。
特徴数が観測数より少ない場合、線形結合の解釈をまだ許しているカーネル行列の最小二乗近似について論じる。
これらの結果は、係数を最小化し、カーネルロジスティック回帰やカーネルポアソン回帰のようなこれらの係数に対するリッジペナルティを持つ線形結合の任意の関数に対して成り立つ。
この研究は人工知能の解釈に貢献する。
関連論文リスト
- On the kernel learning problem [4.917649865600782]
カーネルリッジ回帰問題は、入力データである$Xin mathbbRd$の関数として出力$Y$に最適なものを見つけることを目的としている。
我々は、余剰行列パラメータ$U$を導入することにより、カーネルリッジ回帰問題の一般化を考える。
これは自然に$U$の選択を最適化する非線形変分問題につながる。
論文 参考訳(メタデータ) (2025-02-17T10:54:01Z) - Highly Adaptive Ridge [84.38107748875144]
直交可積分な部分微分を持つ右連続函数のクラスにおいて,$n-2/3$自由次元L2収束率を達成する回帰法を提案する。
Harは、飽和ゼロオーダーテンソル積スプライン基底展開に基づいて、特定のデータ適応型カーネルで正確にカーネルリッジレグレッションを行う。
我々は、特に小さなデータセットに対する最先端アルゴリズムよりも経験的性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:06:06Z) - Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Gaussian Process Regression under Computational and Epistemic Misspecification [4.5656369638728656]
大規模データアプリケーションでは、カーネルの低ランクあるいはスパース近似を用いて計算コストを削減できる。
本稿では,そのようなカーネル近似が要素誤差に与える影響について検討する。
論文 参考訳(メタデータ) (2023-12-14T18:53:32Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - An Equivalence Principle for the Spectrum of Random Inner-Product Kernel
Matrices with Polynomial Scalings [21.727073594338297]
この研究は、機械学習と統計学の応用によって動機付けられている。
スケーリングシステムにおいて,これらのランダム行列の経験的分布の弱い限界を確立する。
我々の結果は、マルテンコ・パストゥル法と半円法の間の自由加法的畳み込みとして特徴づけられる。
論文 参考訳(メタデータ) (2022-05-12T18:50:21Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - High-Dimensional Gaussian Process Inference with Derivatives [90.8033626920884]
低データ状態の$ND$では、Gram行列は$mathcalO(N2D + (N2)3)$に推論のコストを下げる方法で分解できることを示す。
最適化や予測勾配を持つハミルトニアンモンテカルロなど、機械学習に関連する様々なタスクでこの可能性を実証する。
論文 参考訳(メタデータ) (2021-02-15T13:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。