論文の概要: Clustering by Direct Optimization of the Medoid Silhouette
- arxiv url: http://arxiv.org/abs/2209.12553v1
- Date: Mon, 26 Sep 2022 10:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 14:56:52.524836
- Title: Clustering by Direct Optimization of the Medoid Silhouette
- Title(参考訳): メドロイドシルエットの直接最適化によるクラスタリング
- Authors: Lars Lenssen and Erich Schubert
- Abstract要約: 我々は、効率的なメドイドに基づくシルエットの変種について議論し、その特性の理論解析を行い、直接最適化のために2つの高速バージョンを提供する。
バージョンのひとつでは、元の変種と同等の結果が保証されており、実行速度は$O(k2)$である。
30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$times$ Speedupが観測された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evaluation of clustering results is difficult, highly dependent on the
evaluated data set and the perspective of the beholder. There are many
different clustering quality measures, which try to provide a general measure
to validate clustering results. A very popular measure is the Silhouette. We
discuss the efficient medoid-based variant of the Silhouette, perform a
theoretical analysis of its properties, and provide two fast versions for the
direct optimization. We combine ideas from the original Silhouette with the
well-known PAM algorithm and its latest improvements FasterPAM. One of the
versions guarantees equal results to the original variant and provides a run
speedup of $O(k^2)$. In experiments on real data with 30000 samples and
$k$=100, we observed a 10464$\times$ speedup compared to the original PAMMEDSIL
algorithm.
- Abstract(参考訳): クラスタリング結果の評価は困難であり、評価されたデータセットとbeholderの視点に大きく依存している。
クラスタリング結果を検証するための一般的な手段を提供しようとする、クラスタリングの品質測定方法には、さまざまなものがある。
非常に人気のある尺度はシルエットである。
効率的なメドロイドベースのシルエットを議論し,その特性を理論的に解析し,直接最適化のために2つの高速バージョンを提供する。
我々は、オリジナルのSilhouetteのアイデアとよく知られたPAMアルゴリズムと、その最新の改良であるFasterPAMを組み合わせる。
バージョンの一つは元の変種と同じ結果を保証し、O(k^2)$のランスピードアップを提供する。
30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$\times$ Speedupが観測された。
関連論文リスト
- You Only Accept Samples Once: Fast, Self-Correcting Stochastic Variational Inference [0.0]
YOASOVI(ヨアソビ)は、ベイズ系大規模モデルにおける変分推論(VI)の高速で自己補正的な直観最適化を行うアルゴリズムである。
これを実現するために、各イテレーションで VI に使用される目的関数について利用可能な情報を活用し、通常のモンテカルロサンプリングを受け入れサンプリングに置き換える。
論文 参考訳(メタデータ) (2024-06-05T01:28:53Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Medoid Silhouette clustering with automatic cluster number selection [0.0]
我々は、効率的なメドイドベースのシルエットの変種について議論し、その特性の理論解析を行い、直接最適化のための2つの高速バージョンを提供し、最適なクラスタ数を選択するためにの使用について議論する。
バージョンのひとつでは、元の変種と同等の結果が保証されており、実行速度は$O(k2)$である。
30000サンプルと$k$=100の実データを用いた実験では、元のPAMMEDSILアルゴリズムと比較して10464$times$ Speedupが観測された。
論文 参考訳(メタデータ) (2023-09-07T14:46:48Z) - A distribution-free mixed-integer optimization approach to hierarchical modelling of clustered and longitudinal data [0.0]
我々は,新しいデータポイントに対するクラスタ効果を評価する革新的なアルゴリズムを導入し,このモデルのロバスト性や精度を高める。
このアプローチの推論的および予測的効果は、学生のスコアリングとタンパク質発現に適用することでさらに説明される。
論文 参考訳(メタデータ) (2023-02-06T23:34:51Z) - Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR
Prediction [19.71671771503269]
深層学習における適応の族にスパース群ラッソの正規化子を追加する新しいフレームワークを開発する。
理論的に凸な設定では,収束保証が確立される。
提案手法は, 極めて優れた性能, 高い競争性能を達成できる。
論文 参考訳(メタデータ) (2021-07-30T05:33:43Z) - Stochastic Optimization Forests [60.523606291705214]
標準的なランダムな森林アルゴリズムのように予測精度を向上させるために分割するのではなく、分割を選択した木を栽培し、下流の意思決定品質を直接最適化することで、森林決定政策の訓練方法を示す。
概略分割基準は、各候補分割に対して正確に最適化された森林アルゴリズムに近い性能を保ちながら、100倍のランニング時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-08-17T16:56:06Z) - Fast and Eager k-Medoids Clustering: O(k) Runtime Improvement of the
PAM, CLARA, and CLARANS Algorithms [0.0]
Partitioning Around Medoids (PAM) は非ユークリッドデータをクラスタリングするためのアルゴリズムである。
本稿では,アルゴリズムの第2フェーズ(SWAP)でO(k)倍の高速化を実現するPAMの修正を提案する。
k=100,200の実データを用いた実験では,元のPAM SWAPアルゴリズムと比較して,それぞれ458倍のスピードアップを観測した。
論文 参考訳(メタデータ) (2020-08-12T08:37:50Z) - ADAHESSIAN: An Adaptive Second Order Optimizer for Machine Learning [91.13797346047984]
本稿では,2次最適化アルゴリズムであるADAHESSIANを紹介する。
ADAHESSIANは、他の適応最適化手法と比較して、新しい最先端の成果を大きなマージンで達成することを示す。
論文 参考訳(メタデータ) (2020-06-01T05:00:51Z) - Clustering Binary Data by Application of Combinatorial Optimization
Heuristics [52.77024349608834]
本稿では,2値データのクラスタリング手法について検討し,まず,クラスタのコンパクトさを計測するアグリゲーション基準を定義した。
近隣地域と人口動態最適化メタヒューリスティックスを用いた5つの新しいオリジナル手法が導入された。
準モンテカルロ実験によって生成された16のデータテーブルから、L1の相似性と階層的クラスタリング、k-means(メドイドやPAM)の1つのアグリゲーションの比較を行う。
論文 参考訳(メタデータ) (2020-01-06T23:33:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。