論文の概要: Diversity sampling is an implicit regularization for kernel methods
- arxiv url: http://arxiv.org/abs/2002.08616v1
- Date: Thu, 20 Feb 2020 08:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:40:16.219848
- Title: Diversity sampling is an implicit regularization for kernel methods
- Title(参考訳): 多様性サンプリングはカーネルメソッドの暗黙の正規化である
- Authors: Micha\"el Fanuel and Joachim Schreurs and Johan A.K. Suykens
- Abstract要約: 多様なランドマークを持つNystrのカーネルレグレッションにより,データセットのスペーサー領域におけるレグレッションの精度が向上することを示す。
正確な DPP サンプリングが現実的に実現不可能な場合, 大規模なデータセット内で大きなサイズのサンプルを選択するために, グリーディも提案されている。
- 参考スコア(独自算出の注目度): 13.136143245702915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kernel methods have achieved very good performance on large scale regression
and classification problems, by using the Nystr\"om method and preconditioning
techniques. The Nystr\"om approximation -- based on a subset of landmarks --
gives a low rank approximation of the kernel matrix, and is known to provide a
form of implicit regularization. We further elaborate on the impact of sampling
diverse landmarks for constructing the Nystr\"om approximation in supervised as
well as unsupervised kernel methods. By using Determinantal Point Processes for
sampling, we obtain additional theoretical results concerning the interplay
between diversity and regularization. Empirically, we demonstrate the
advantages of training kernel methods based on subsets made of diverse points.
In particular, if the dataset has a dense bulk and a sparser tail, we show that
Nystr\"om kernel regression with diverse landmarks increases the accuracy of
the regression in sparser regions of the dataset, with respect to a uniform
landmark sampling. A greedy heuristic is also proposed to select diverse
samples of significant size within large datasets when exact DPP sampling is
not practically feasible.
- Abstract(参考訳): カーネル法は、Nystr\om法とプレコンディショニング技術を用いて、大規模回帰と分類問題において非常に優れた性能を達成している。
Nystr\"om approximation -- ランドマークのサブセットに基づく - は、カーネル行列の低階近似を与え、暗黙の正則化の形式を提供することが知られている。
我々はさらに, nystr\"om近似を教師なしおよび教師なしカーネル法で構築するための多様なランドマークのサンプリングの影響について詳述した。
サンプリングにDeterminantal Point Processsを用い,多様性と正規化の相互作用に関する理論的結果を得た。
経験的に、多様な点からなるサブセットに基づいたカーネルメソッドのトレーニングの利点を実証する。
特に、データセットが密集したバルクとスパーザーテールを持つ場合、様々なランドマークを持つnystr\"omカーネルレグレッションは、一様ランドマークサンプリングに関してデータセットのスパーサー領域のレグレッションの精度を増加させる。
厳密なヒューリスティックは、正確なDPPサンプリングが現実的に実現不可能な場合、大きなデータセット内で大きなサイズのサンプルを選択するためにも提案されている。
関連論文リスト
- Samplet basis pursuit [0.0]
我々は,l1-regularizationによるサンプル座標のカーネルベース学習について検討する。
サンプルベースでスパース的に表現できる信号のクラスは、シングルスケールベースでスパース表現を示す信号のクラスよりもかなり大きい。
本稿では,複数のカーネルの辞書を用いて,ノイズデータから表面再構成や温度データの再構成を行うための数値ベンチマークと応用について述べる。
論文 参考訳(メタデータ) (2023-06-16T21:20:49Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Local optimisation of Nystr\"om samples through stochastic gradient
descent [32.53634754382956]
我々は、Nystrの近似精度を評価するために用いられる古典的基準のサロゲートとして、二乗カーネルの差分基準の未加重変動を考慮する。
我々は、放射状SKDの局所最小化が、Nystr"omサンプルを改良したNystr"om近似精度で得られることを示す数値実験を行った。
論文 参考訳(メタデータ) (2022-03-24T18:17:27Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Kernel k-Means, By All Means: Algorithms and Strong Consistency [21.013169939337583]
Kernel $k$クラスタリングは、非線形データの教師なし学習のための強力なツールである。
本稿では,最適化された局所解に対処するための一般的な手法を応用した結果を一般化する。
我々のアルゴリズムは、この非線形分離問題をよりよく解くために、Magricalization-minimization (MM) を利用している。
論文 参考訳(メタデータ) (2020-11-12T16:07:18Z) - Kernel Ridge Regression Using Importance Sampling with Application to
Seismic Response Prediction [1.4180331276028657]
効率的な2段階アプローチを用いて,多様性を促進する新しいランドマーク選択法を提案する。
また, 地震荷重と材料不確実性による構造応答予測のためのカーネル手法の新たな適用法を用いて, いくつかのランドマーク選択手法の性能について検討した。
論文 参考訳(メタデータ) (2020-09-19T01:44:56Z) - Random extrapolation for primal-dual coordinate descent [61.55967255151027]
本稿では,データ行列の疎度と目的関数の好適な構造に適応する,ランダムに外挿した原始-双対座標降下法を提案する。
一般凸凹の場合, 主対差と目的値に対するシーケンスのほぼ確実に収束と最適サブ線形収束率を示す。
論文 参考訳(メタデータ) (2020-07-13T17:39:35Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。