論文の概要: An Empirical Evaluation of $k$-Means Coresets
- arxiv url: http://arxiv.org/abs/2207.00966v1
- Date: Sun, 3 Jul 2022 06:47:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 11:16:16.583041
- Title: An Empirical Evaluation of $k$-Means Coresets
- Title(参考訳): k$-means コアセットの実験的評価
- Authors: Chris Schwiegelshohn and Omar Ali Sheikh-Omar
- Abstract要約: 利用可能な$k$-meansコアセットの品質を比較する作業はありません。
我々はコアセットの計算が困難であると主張するベンチマークを提案する。
我々は理論と実践から最もよく使われるコアセットアルゴリズムの徹底的な評価を行う。
- 参考スコア(独自算出の注目度): 4.45709593827781
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coresets are among the most popular paradigms for summarizing data. In
particular, there exist many high performance coresets for clustering problems
such as $k$-means in both theory and practice. Curiously, there exists no work
on comparing the quality of available $k$-means coresets.
In this paper we perform such an evaluation. There currently is no algorithm
known to measure the distortion of a candidate coreset. We provide some
evidence as to why this might be computationally difficult. To complement this,
we propose a benchmark for which we argue that computing coresets is
challenging and which also allows us an easy (heuristic) evaluation of
coresets. Using this benchmark and real-world data sets, we conduct an
exhaustive evaluation of the most commonly used coreset algorithms from theory
and practice.
- Abstract(参考訳): コアセットはデータを要約する最も一般的なパラダイムのひとつです。
特に、理論と実践の両方において$k$-meansのようなクラスタリング問題に対する高性能コアセットが多数存在する。
興味深いことに、利用可能な$k$-means コアセットの品質を比較する作業はない。
本稿では,このような評価を行う。
現在、候補コアセットの歪みを測定するアルゴリズムは知られていない。
なぜ計算が難しいのか、いくつかの証拠を提供する。
そこで我々は,コアセットの計算が困難であるとともに,コアセットの簡易な(ヒューリスティックな)評価を可能にするベンチマークを提案する。
このベンチマークと実世界のデータセットを用いて、理論と実践から最もよく使われるコアセットアルゴリズムを徹底的に評価する。
関連論文リスト
- Achieving More with Less: A Tensor-Optimization-Powered Ensemble Method [53.170053108447455]
アンサンブル学習(英: Ensemble learning)は、弱い学習者を利用して強力な学習者を生み出す方法である。
我々は、マージンの概念を活かした滑らかで凸な目的関数を設計し、強力な学習者がより差別的になるようにした。
そして、我々のアルゴリズムを、多数のデータセットの10倍の大きさのランダムな森林や他の古典的な手法と比較する。
論文 参考訳(メタデータ) (2024-08-06T03:42:38Z) - Simple Weak Coresets for Non-Decomposable Classification Measures [3.5819148482955514]
また,一様サンプリングに基づくコアセットは,理論的保証による実証性能にも優れることを示した。
我々はF1スコアとマシューズ相関係数に焦点をあて、最適化し難い2つの広く使われている非分解対象関数を最適化し、一様コアセットがコアセットサイズに対して低い境界に達することを示す。
論文 参考訳(メタデータ) (2023-12-15T15:32:25Z) - Composable Core-sets for Diversity Approximation on Multi-Dataset
Streams [4.765131728094872]
構成可能なコアセットはコアセットであり、コアセットのサブセットを結合して元のデータに対する近似を得るという性質を持つ。
本研究では,構成可能なコアセットを構築するためのコアセット構築アルゴリズムを導入し,アクティブな学習環境におけるストリームデータを要約する。
論文 参考訳(メタデータ) (2023-08-10T23:24:51Z) - AutoCoreset: An Automatic Practical Coreset Construction Framework [65.37876706107764]
コアセットは入力セットの小さな重み付き部分集合であり、損失関数によく似ている。
本稿では,ユーザからの入力データと所望のコスト関数のみを必要とするコアセット構築のための自動フレームワークを提案する。
この集合は有限であるが、コア集合は極めて一般であることを示す。
論文 参考訳(メタデータ) (2023-05-19T19:59:52Z) - Introduction to Coresets: Approximated Mean [29.520871474641485]
A emphstrong coreset for the mean query of a set $P$ in $mathbbRd$ is a small weighted subset $Csubseteq P$。
emphweak coreset は小さい加重部分集合$C$ of$P$ であり、平均は$P$ である。
論文 参考訳(メタデータ) (2021-11-04T17:49:38Z) - A Unified Approach to Coreset Learning [24.79658173754555]
与えられたデータセットと損失関数のコアセットは、通常、与えられたクエリの集合からの全てのクエリの損失を近似する小さな重み付きセットである。
コアセット構築のための一般学習型アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-04T17:48:05Z) - FriendlyCore: Practical Differentially Private Aggregation [67.04951703461657]
我々は、制約のない(擬似)計量空間から点の集合を$cal D$として取り出す、単純で実用的なツールである$mathsfFriendlyCore$を提案する。
$cal D$ が有効直径 $r$ を持つとき、$mathsfFriendlyCore$ はすべての点を含む "stable" サブセット $cal D_Gsubseteq cal D$ を返す。
$mathsfFriendlyCore$は、プライベートに集約する前に入力を前処理するために使用することができる。
論文 参考訳(メタデータ) (2021-10-19T17:43:50Z) - Fuzzy Clustering with Similarity Queries [56.96625809888241]
ファジィ(fuzzy, soft objective)は、よく知られた$k$-means問題の一般化である。
クエリを少なくすることで、問題の解決が容易になる。
論文 参考訳(メタデータ) (2021-06-04T02:32:26Z) - Ranking a set of objects: a graph based least-square approach [70.7866286425868]
同一労働者の群集によるノイズの多いペアワイズ比較から始まる$N$オブジェクトのランク付けの問題について考察する。
品質評価のために,最小二乗内在的最適化基準に依存する非適応的ランキングアルゴリズムのクラスを提案する。
論文 参考訳(メタデータ) (2020-02-26T16:19:09Z) - On Coresets for Support Vector Machines [61.928187390362176]
coresetは、元のデータポイントの小さな、代表的なサブセットである。
我々は,本アルゴリズムを用いて,既製のSVMソルバをストリーミング,分散,動的データ設定に適用可能であることを示す。
論文 参考訳(メタデータ) (2020-02-15T23:25:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。