論文の概要: Stop using the elbow criterion for k-means and how to choose the number
of clusters instead
- arxiv url: http://arxiv.org/abs/2212.12189v1
- Date: Fri, 23 Dec 2022 08:15:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 16:16:32.517582
- Title: Stop using the elbow criterion for k-means and how to choose the number
of clusters instead
- Title(参考訳): k-meansのelbow criterionの使用をやめて、代わりにクラスタの数を選択する方法
- Authors: Erich Schubert
- Abstract要約: この手紙は、理論的なサポートが不足しているため、肘法をまったく使わないよう呼びかけるものである。
私たちは、教育者がメソッド(クラスにそれを導入する場合)の問題について議論することを奨励し、代わりに代替方法を教えることを望みます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge when using k-means clustering often is how to choose the
parameter k, the number of clusters. In this letter, we want to point out that
it is very easy to draw poor conclusions from a common heuristic, the "elbow
method". Better alternatives have been known in literature for a long time, and
we want to draw attention to some of these easy to use options, that often
perform better. This letter is a call to stop using the elbow method
altogether, because it severely lacks theoretic support, and we want to
encourage educators to discuss the problems of the method -- if introducing it
in class at all -- and teach alternatives instead, while researchers and
reviewers should reject conclusions drawn from the elbow method.
- Abstract(参考訳): k-meansクラスタリングを使用する場合、大きな課題はパラメータk、クラスタ数を選択する方法だ。
この書簡では、共通のヒューリスティックである"elbow method"から不十分な結論を引き出すのは非常に容易であることを指摘したい。
より優れた代替案は長い間文学で知られてきましたが、私たちはこれらの簡単なオプションのいくつかに注意を向けたいと思っています。
この手紙は、理論的なサポートが不足しているため、肘法を全面的に使わないよう呼びかけるものであり、私たちは、教育者がメソッドの問題(クラスに導入した場合)を議論するよう促し、代わりに代替法を教えるように促し、研究者や審査員は肘法から引き出された結論を拒絶すべきである。
関連論文リスト
- A Practical Approach to Novel Class Discovery in Tabular Data [38.41548083078336]
新規クラスディスカバリー(英: Novel Class Discovery, NCD)は、未知のクラスを正確に分割するために、ラベル付けされた既知のクラスの集合から知識を抽出する問題である。
本研究では、$k$-foldのクロスバリデーションプロセスを適用し、既知のクラスの一部を各フォルダに隠すことで、NCDメソッドのハイパーパラメータを調整することを提案する。
この手法の潜在空間は,新規クラスの数を確実に推定するために有効であることがわかった。
論文 参考訳(メタデータ) (2023-11-09T15:24:44Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - Recursive Causal Structure Learning in the Presence of Latent Variables
and Selection Bias [27.06618125828978]
本稿では,潜伏変数と選択バイアスの存在下での観測データからシステムの因果MAGを学習する問題を考察する。
本稿では,音と完全性を備えた計算効率のよい制約ベースの新しい手法を提案する。
提案手法と人工と実世界の両方の構造に関する技術の現状を比較した実験結果を提供する。
論文 参考訳(メタデータ) (2021-10-22T19:49:59Z) - A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。
教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文 参考訳(メタデータ) (2021-05-31T08:21:52Z) - GistNet: a Geometric Structure Transfer Network for Long-Tailed
Recognition [95.93760490301395]
長い尾の認識は、クラスごとのサンプル数が非常にアンバランスである問題です。
GistNetは、クラスジオメトリをエンコードするために分類パラメータのコンステレーションを使用して、この目標をサポートするように提案されている。
新しい学習アルゴリズムがGeometrIc Structure Transfer (GIST) に提案され、クラスバランスとランダムサンプリングを組み合わせた損失関数の組み合わせにより、一般的なクラスに過度に適合することは幾何パラメータに制限されるが、人気クラスから少数ショットクラスへのクラス幾何学の転送に利用される。
論文 参考訳(メタデータ) (2021-05-01T00:37:42Z) - On Sampling-Based Training Criteria for Neural Language Modeling [97.35284042981675]
我々はモンテカルロサンプリング、重要サンプリング、補償部分和と呼ばれる新しい方法、およびノイズコントラスト推定を検討する。
対象のクラス後部確率を補正しさえすれば,これらすべてのサンプリング手法が同等に動作可能であることを示す。
Switchboard と LibriSpeech における言語モデリングと音声認識の実験結果が,我々の主張を支持した。
論文 参考訳(メタデータ) (2021-04-21T12:55:52Z) - On Extending NLP Techniques from the Categorical to the Latent Space: KL
Divergence, Zipf's Law, and Similarity Search [13.039919885862798]
単語埋め込みを用いて,エントロピーとKulback-Leiblerの発散を効率的に推定できることを示す。
次に、分類空間から潜在空間へ頻繁に観測されるZipfの法則として知られる重み付き分布をリキャストする。
最後に, 類似文を識別する新しい手法を導入することにより, 文章提案のためのジャカード類似度尺度の改善を図る。
論文 参考訳(メタデータ) (2020-12-02T17:35:49Z) - Unification of HDP and LDA Models for Optimal Topic Clustering of
Subject Specific Question Banks [55.41644538483948]
オンラインコースの人気が高まると、学者向けのコース関連クエリの数が増加することになる。
個々の質問に答えるのに費やす時間を短縮するために、それらをクラスタリングするのは理想的な選択です。
階層ディリクレプロセスを用いて、LDAモデルの実行に対して最適なトピック番号を入力します。
論文 参考訳(メタデータ) (2020-10-04T18:21:20Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。