論文の概要: A K-Means, Ward and DBSCAN repeatability study
- arxiv url: http://arxiv.org/abs/2512.19772v1
- Date: Mon, 22 Dec 2025 09:30:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.630884
- Title: A K-Means, Ward and DBSCAN repeatability study
- Title(参考訳): K-Means, WardおよびDBSCANの再現性に関する研究
- Authors: Anthony Bertrand, Engelbert Mephu Nguifo, Violaine Antoine, David Hill,
- Abstract要約: 再現性は、モデルや実験が同じ科学的結論をもたらすことを保証するため、機械学習において不可欠である。
この作業は、ユーザと開発者双方のこの問題に対する認識を高め、さらなる調査と潜在的な修正を促進することを目的としている。
- 参考スコア(独自算出の注目度): 1.626454734888464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reproducibility is essential in machine learning because it ensures that a model or experiment yields the same scientific conclusion. For specific algorithms repeatability with bitwise identical results is also a key for scientific integrity because it allows debugging. We decomposed several very popular clustering algorithms: K-Means, DBSCAN and Ward into their fundamental steps, and we identify the conditions required to achieve repeatability at each stage. We use an implementation example with the Python library scikit-learn to examine the repeatable aspects of each method. Our results reveal inconsistent results with K-Means when the number of OpenMP threads exceeds two. This work aims to raise awareness of this issue among both users and developers, encouraging further investigation and potential fixes.
- Abstract(参考訳): 再現性は、モデルや実験が同じ科学的結論をもたらすことを保証するため、機械学習において不可欠である。
ビット単位で同じ結果を持つ特定のアルゴリズムの再現性は、デバッグを可能にするため、科学的完全性の鍵でもある。
我々は、K-Means、DBSCAN、Wardといった非常に人気のあるクラスタリングアルゴリズムを基本ステップに分解し、各段階で再現性を達成するために必要な条件を特定した。
我々はPythonライブラリのScikit-learnで実装例を使用して、各メソッドの繰り返し可能な側面を調べます。
その結果,OpenMP スレッド数が 2 を超える場合,K-Means と矛盾する結果が得られた。
この作業は、ユーザと開発者双方のこの問題に対する認識を高め、さらなる調査と潜在的な修正を促進することを目的としている。
関連論文リスト
- Sample Compression for Self Certified Continual Learning [4.354838732412981]
連続学習アルゴリズムは、一連のタスクから学習することを目的としており、トレーニング分布を静止しないものにしている。
提案手法はCoP2L(Continual Pick-to-Learn)と呼ばれ,各タスクの最も代表的なサンプルを効率的に保持することができる。
論文 参考訳(メタデータ) (2025-03-13T16:05:56Z) - Reconciling Predictive Multiplicity in Practice [43.74883617124773]
Reconcileは、モデル乗法(MM)現象に対処するための和解手続きである。
本稿では,5つの広く利用されているフェアネスデータセットを用いて,Reconcileアルゴリズムを実証的に解析する。
我々はReconcileアルゴリズムを因果推論の設定にまで拡張し、異なる競合推定器が特定の因果平均処理効果(CATE)値に再び異同できることを考慮した。
論文 参考訳(メタデータ) (2025-01-27T22:48:20Z) - Machine Unlearning in Forgettability Sequence [22.497699136603877]
未学習の難易度と未学習アルゴリズムの性能に影響を及ぼす要因を同定する。
本稿では,RankingモジュールとSeqUnlearnモジュールからなる一般の未学習フレームワーク RSU を提案する。
論文 参考訳(メタデータ) (2024-10-09T01:12:07Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Multi-Dimensional Ability Diagnosis for Machine Learning Algorithms [88.93372675846123]
本稿では,機械学習アルゴリズム評価のためのタスク非依存評価フレームワークCamillaを提案する。
認識診断の仮定とニューラルネットワークを用いて、各サンプルのアルゴリズム、サンプル、スキル間の複雑な相互作用を学習する。
我々の実験では、カミラはメートル法信頼性、ランクの整合性、ランクの安定性で最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2023-07-14T03:15:56Z) - Unified Functional Hashing in Automatic Machine Learning [58.77232199682271]
高速に統一された関数型ハッシュを用いることで,大きな効率向上が得られることを示す。
私たちのハッシュは"機能的"であり、表現やコードが異なる場合でも同等の候補を識別します。
ニューラルアーキテクチャ検索やアルゴリズム発見など、複数のAutoMLドメインで劇的な改善がなされている。
論文 参考訳(メタデータ) (2023-02-10T18:50:37Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Differentially Private Clustering: Tight Approximation Ratios [57.89473217052714]
基本的なクラスタリング問題に対して,効率的な微分プライベートアルゴリズムを提案する。
この結果から,SampleとAggregateのプライバシーフレームワークのアルゴリズムの改善が示唆された。
1-Clusterアルゴリズムで使用されるツールの1つは、ClosestPairのより高速な量子アルゴリズムを適度な次元で得るために利用できる。
論文 参考訳(メタデータ) (2020-08-18T16:22:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。