論文の概要: A reproducible comparative study of categorical kernels for Gaussian process regression, with new clustering-based nested kernels
- arxiv url: http://arxiv.org/abs/2510.01840v1
- Date: Thu, 02 Oct 2025 09:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.078418
- Title: A reproducible comparative study of categorical kernels for Gaussian process regression, with new clustering-based nested kernels
- Title(参考訳): 新しいクラスタリングに基づくネストカーネルを用いたガウス過程回帰のための分類カーネルの再現可能な比較研究
- Authors: Raphaël Carpintero Perez, Sébastien Da Veiga, Josselin Garnier,
- Abstract要約: 本稿では,これまで検討されてきた多くのテストケースにおいて,既存のカーネルを比較検討した。
また,最適化コミュニティにインスパイアされた新たな評価指標を提案する。
グループ構造が不明な場合や,そのような構造について事前の知識がない場合には,クラスタリングに基づく新たな戦略を提案する。
- 参考スコア(独自算出の注目度): 3.848846022367752
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing categorical kernels is a major challenge for Gaussian process regression with continuous and categorical inputs. Despite previous studies, it is difficult to identify a preferred method, either because the evaluation metrics, the optimization procedure, or the datasets change depending on the study. In particular, reproducible code is rarely available. The aim of this paper is to provide a reproducible comparative study of all existing categorical kernels on many of the test cases investigated so far. We also propose new evaluation metrics inspired by the optimization community, which provide quantitative rankings of the methods across several tasks. From our results on datasets which exhibit a group structure on the levels of categorical inputs, it appears that nested kernels methods clearly outperform all competitors. When the group structure is unknown or when there is no prior knowledge of such a structure, we propose a new clustering-based strategy using target encodings of categorical variables. We show that on a large panel of datasets, which do not necessarily have a known group structure, this estimation strategy still outperforms other approaches while maintaining low computational cost.
- Abstract(参考訳): 分類的カーネルを設計することは、連続的および分類的入力を持つガウス過程の回帰にとって大きな課題である。
従来の研究にもかかわらず、評価指標、最適化手順、あるいはデータセットが研究によって変化するため、望ましい方法を特定することは困難である。
特に再現可能なコードはめったにない。
本研究の目的は,これまで検討されてきたテストケースの多くにおいて,既存のカーネルの再現可能な比較研究を行うことである。
また,最適化コミュニティにインスパイアされた新たな評価指標を提案する。
分類的インプットのレベルにグループ構造を示すデータセットの結果から,ネストされたカーネル手法は,すべての競合より明らかに優れていると考えられる。
群構造が未知であるか,あるいはそのような構造について事前の知識がない場合,分類変数のターゲットエンコーディングを用いたクラスタリングに基づく新たな戦略を提案する。
グループ構造が必ずしも分かっていない大規模なデータセットパネルでは,この推定方法が計算コストを低く抑えながら,他の手法よりも優れていることを示す。
関連論文リスト
- Incremental Structure Discovery of Classification via Sequential Monte Carlo [5.1581069235093295]
本稿では,事前知識の少ない複雑なデータの分類モデルを自動的に発見する手法を提案する。
本手法では, カーネルの様々な特徴を, 合成データと実世界のデータに自動的に組み込んで分類することができる。
論文 参考訳(メタデータ) (2024-08-15T01:23:49Z) - GCC: Generative Calibration Clustering [55.44944397168619]
本稿では,特徴学習と拡張をクラスタリングに組み込む新しいGCC法を提案する。
まず,実検体と実検体間の固有関係を識別する識別的特徴アライメント機構を開発する。
第二に、より信頼性の高いクラスタ割り当てを生成するための自己教師付きメトリック学習を設計する。
論文 参考訳(メタデータ) (2024-04-14T01:51:11Z) - Dynamic Conceptional Contrastive Learning for Generalized Category
Discovery [76.82327473338734]
Generalized category discovery (GCD) は、部分的にラベル付けされたデータを自動でクラスタリングすることを目的としている。
ラベル付きデータには、ラベル付きデータの既知のカテゴリだけでなく、新しいカテゴリのインスタンスも含まれている。
GCDの効果的な方法の1つは、ラベルなしデータの識別表現を学習するために自己教師付き学習を適用することである。
本稿では,クラスタリングの精度を効果的に向上する動的概念コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:04:39Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Clustering Optimisation Method for Highly Connected Biological Data [0.0]
接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。
この作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。
論文 参考訳(メタデータ) (2022-08-08T17:33:32Z) - Learning Compositional Sparse Gaussian Processes with a Shrinkage Prior [26.52863547394537]
本稿では,カーネル選択のスパーシティをホースシュープリアーで処理することにより,カーネル構成を学習するための新しい確率論的アルゴリズムを提案する。
本モデルは,計算時間を大幅に削減した時系列特性をキャプチャし,実世界のデータセット上での競合回帰性能を有する。
論文 参考訳(メタデータ) (2020-12-21T13:41:15Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Simple and Scalable Sparse k-means Clustering via Feature Ranking [14.839931533868176]
直感的で実装が簡単で,最先端のアルゴリズムと競合する,スパースk平均クラスタリングのための新しいフレームワークを提案する。
本手法は,属性のサブセットのクラスタリングや部分的に観測されたデータ設定など,タスク固有のアルゴリズムに容易に一般化できる。
論文 参考訳(メタデータ) (2020-02-20T02:41:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。