論文の概要: Diversity sampling is an implicit regularization for kernel methods
- arxiv url: http://arxiv.org/abs/2002.08616v1
- Date: Thu, 20 Feb 2020 08:24:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 06:40:16.219848
- Title: Diversity sampling is an implicit regularization for kernel methods
- Title(参考訳): 多様性サンプリングはカーネルメソッドの暗黙の正規化である
- Authors: Micha\"el Fanuel and Joachim Schreurs and Johan A.K. Suykens
- Abstract要約: 多様なランドマークを持つNystrのカーネルレグレッションにより,データセットのスペーサー領域におけるレグレッションの精度が向上することを示す。
正確な DPP サンプリングが現実的に実現不可能な場合, 大規模なデータセット内で大きなサイズのサンプルを選択するために, グリーディも提案されている。
- 参考スコア(独自算出の注目度): 13.136143245702915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kernel methods have achieved very good performance on large scale regression
and classification problems, by using the Nystr\"om method and preconditioning
techniques. The Nystr\"om approximation -- based on a subset of landmarks --
gives a low rank approximation of the kernel matrix, and is known to provide a
form of implicit regularization. We further elaborate on the impact of sampling
diverse landmarks for constructing the Nystr\"om approximation in supervised as
well as unsupervised kernel methods. By using Determinantal Point Processes for
sampling, we obtain additional theoretical results concerning the interplay
between diversity and regularization. Empirically, we demonstrate the
advantages of training kernel methods based on subsets made of diverse points.
In particular, if the dataset has a dense bulk and a sparser tail, we show that
Nystr\"om kernel regression with diverse landmarks increases the accuracy of
the regression in sparser regions of the dataset, with respect to a uniform
landmark sampling. A greedy heuristic is also proposed to select diverse
samples of significant size within large datasets when exact DPP sampling is
not practically feasible.
- Abstract(参考訳): カーネル法は、Nystr\om法とプレコンディショニング技術を用いて、大規模回帰と分類問題において非常に優れた性能を達成している。
Nystr\"om approximation -- ランドマークのサブセットに基づく - は、カーネル行列の低階近似を与え、暗黙の正則化の形式を提供することが知られている。
我々はさらに, nystr\"om近似を教師なしおよび教師なしカーネル法で構築するための多様なランドマークのサンプリングの影響について詳述した。
サンプリングにDeterminantal Point Processsを用い,多様性と正規化の相互作用に関する理論的結果を得た。
経験的に、多様な点からなるサブセットに基づいたカーネルメソッドのトレーニングの利点を実証する。
特に、データセットが密集したバルクとスパーザーテールを持つ場合、様々なランドマークを持つnystr\"omカーネルレグレッションは、一様ランドマークサンプリングに関してデータセットのスパーサー領域のレグレッションの精度を増加させる。
厳密なヒューリスティックは、正確なDPPサンプリングが現実的に実現不可能な場合、大きなデータセット内で大きなサイズのサンプルを選択するためにも提案されている。
関連論文リスト
- MIK: Modified Isolation Kernel for Biological Sequence Visualization, Classification, and Clustering [3.9146761527401424]
本研究は,ガウスカーネルの代替として,改良分離カーネル (MIK) と呼ばれる新しいアプローチを提案する。
MIKは適応密度推定を用いて局所構造をより正確に捉え、ロバストネス対策を統合する。
局所的および大域的な構造の保存を改善し、組込み空間におけるクラスタとサブクラスタのより良い可視化を可能にする。
論文 参考訳(メタデータ) (2024-10-21T06:57:09Z) - A Bayesian Approach Toward Robust Multidimensional Ellipsoid-Specific Fitting [0.0]
本研究は, ノイズおよび外周波の汚染における散乱データに多次元楕円体を適合させる, 新規で効果的な方法を提案する。
楕円体領域内でのプリミティブパラメータの探索を制約するために、均一な事前分布を組み込む。
本研究では, 顕微鏡細胞計数, 3次元再構成, 幾何学的形状近似, 磁力計の校正タスクなど, 幅広い応用に応用する。
論文 参考訳(メタデータ) (2024-07-27T14:31:51Z) - Samplet basis pursuit: Multiresolution scattered data approximation with sparsity constraints [0.0]
我々は,$ell_1$-regularization を用いたサンプルト座標における分散データ近似について検討する。
Riesz isometry を用いて、標本を再現されたカーネルヒルベルト空間に埋め込む。
組込みサンプルベースに対してスパースな信号のクラスは、カーネル翻訳の基盤に関してスパースな信号のクラスよりもかなり大きいと論じる。
論文 参考訳(メタデータ) (2023-06-16T21:20:49Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Local optimisation of Nystr\"om samples through stochastic gradient
descent [32.53634754382956]
我々は、Nystrの近似精度を評価するために用いられる古典的基準のサロゲートとして、二乗カーネルの差分基準の未加重変動を考慮する。
我々は、放射状SKDの局所最小化が、Nystr"omサンプルを改良したNystr"om近似精度で得られることを示す数値実験を行った。
論文 参考訳(メタデータ) (2022-03-24T18:17:27Z) - Scalable Variational Gaussian Processes via Harmonic Kernel
Decomposition [54.07797071198249]
汎用性を維持しつつ高い忠実度近似を提供する,スケーラブルな変分ガウス過程近似を導入する。
様々な回帰問題や分類問題において,本手法は変換やリフレクションなどの入力空間対称性を活用できることを実証する。
提案手法は, 純粋なGPモデルのうち, CIFAR-10 の最先端化を実現する。
論文 参考訳(メタデータ) (2021-06-10T18:17:57Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z) - Random extrapolation for primal-dual coordinate descent [61.55967255151027]
本稿では,データ行列の疎度と目的関数の好適な構造に適応する,ランダムに外挿した原始-双対座標降下法を提案する。
一般凸凹の場合, 主対差と目的値に対するシーケンスのほぼ確実に収束と最適サブ線形収束率を示す。
論文 参考訳(メタデータ) (2020-07-13T17:39:35Z) - Robust M-Estimation Based Bayesian Cluster Enumeration for Real
Elliptically Symmetric Distributions [5.137336092866906]
データセットにおける最適なクラスタ数のロバストな決定は、広範囲のアプリケーションにおいて必須の要素である。
本稿では任意のReally Symmetric(RES)分散混合モデルで使用できるように一般化する。
サンプルサイズが有限であるデータセットに対して,ロバストな基準を導出するとともに,大規模なサンプルサイズでの計算コスト削減のための近似を提供する。
論文 参考訳(メタデータ) (2020-05-04T11:44:49Z) - Improved guarantees and a multiple-descent curve for Column Subset
Selection and the Nystr\"om method [76.73096213472897]
我々は,データ行列のスペクトル特性を利用して近似保証を改良する手法を開発した。
我々のアプローチは、特異値減衰の既知の速度を持つデータセットのバウンダリが大幅に向上する。
RBFパラメータを変更すれば,改良された境界線と多重発振曲線の両方を実データセット上で観測できることが示される。
論文 参考訳(メタデータ) (2020-02-21T00:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。