論文の概要: DBGSA: A Novel Data Adaptive Bregman Clustering Algorithm
- arxiv url: http://arxiv.org/abs/2307.14375v1
- Date: Tue, 25 Jul 2023 16:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 17:17:52.794894
- Title: DBGSA: A Novel Data Adaptive Bregman Clustering Algorithm
- Title(参考訳): DBGSA: 新たなデータ適応型ブレグマンクラスタリングアルゴリズム
- Authors: Ying Xiao, Hou-biao Li, Yu-pu Zhang
- Abstract要約: 本稿では,データセットの初期選択とロバスト性に非常に敏感なクラスタリングアルゴリズムを提案する。
4つのシミュレーションデータセットと6つの実データセットで大規模な実験を行う。
その結果,アルゴリズムの精度は平均63.8%向上した。
- 参考スコア(独自算出の注目度): 2.0232038310495435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the development of Big data technology, data analysis has become
increasingly important. Traditional clustering algorithms such as K-means are
highly sensitive to the initial centroid selection and perform poorly on
non-convex datasets. In this paper, we address these problems by proposing a
data-driven Bregman divergence parameter optimization clustering algorithm
(DBGSA), which combines the Universal Gravitational Algorithm to bring similar
points closer in the dataset. We construct a gravitational coefficient equation
with a special property that gradually reduces the influence factor as the
iteration progresses. Furthermore, we introduce the Bregman divergence
generalized power mean information loss minimization to identify cluster
centers and build a hyperparameter identification optimization model, which
effectively solves the problems of manual adjustment and uncertainty in the
improved dataset. Extensive experiments are conducted on four simulated
datasets and six real datasets. The results demonstrate that DBGSA
significantly improves the accuracy of various clustering algorithms by an
average of 63.8\% compared to other similar approaches like enhanced clustering
algorithms and improved datasets. Additionally, a three-dimensional grid search
was established to compare the effects of different parameter values within
threshold conditions, and it was discovered the parameter set provided by our
model is optimal. This finding provides strong evidence of the high accuracy
and robustness of the algorithm.
- Abstract(参考訳): ビッグデータ技術の発展に伴い、データ分析はますます重要になっている。
k-meansのような従来のクラスタリングアルゴリズムは、初期のcentroid選択に非常に敏感であり、非凸データセットでは性能が悪い。
本稿では,ユニバーサル重力アルゴリズムを組み合わせたデータ駆動ブレグマン分岐パラメータ最適化クラスタリングアルゴリズム(dbgsa)を提案する。
反復が進行するにつれて影響係数を徐々に減少させる特殊特性を持つ重力係数方程式を構築する。
さらに,クラスタセンタを識別するためにbregman divergence一般化パワー平均情報損失最小化を導入し,改良データセットにおける手動調整や不確実性の問題を効果的に解決するハイパーパラメータ識別最適化モデルを構築した。
4つのシミュレーションデータセットと6つの実際のデータセットで大規模な実験を行う。
その結果、dbgsaはクラスタリングアルゴリズムの強化やデータセットの改善といった他の類似のアプローチと比較して、様々なクラスタリングアルゴリズムの精度を平均63.8\%向上させた。
さらに,閾値条件におけるパラメータ値の影響を比較するために3次元グリッド探索が確立され,本モデルで設定したパラメータが最適であることが判明した。
この発見は、アルゴリズムの精度と頑健さの強い証拠を提供する。
関連論文リスト
- K-GBS3FCM -- KNN Graph-Based Safe Semi-Supervised Fuzzy C-Means [0.0]
本稿では,KNNグラフを用いた半教師付きファジィc-meansアルゴリズム(K-GBS3FCM)を提案する。
K-Nearest Neighbors (KNN)アルゴリズムを用いてラベル付きおよびラベルなしデータの近傍関係を動的に評価する。
ラベル付きデータの影響を正規化パラメータと平均安全性度によって調整する機構を提案する。
論文 参考訳(メタデータ) (2024-11-22T04:48:58Z) - Boosting K-means for Big Data by Fusing Data Streaming with Global Optimization [0.3069335774032178]
K平均クラスタリングはデータマイニングの基盤であるが、その効率は大量のデータセットに直面すると悪化する。
可変近傍探索(VNS)メタヒューリスティックを利用して,K平均クラスタリングをビッグデータに最適化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-18T15:43:34Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Recovering Linear Causal Models with Latent Variables via Cholesky
Factorization of Covariance Matrix [21.698480201955213]
観測データの共分散行列のコレスキー分解に基づくDAG構造復元アルゴリズムを提案する。
合成および実世界のデータセットでは、アルゴリズムは従来の手法よりも大幅に高速で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-01T17:27:49Z) - Towards High-Performance Exploratory Data Analysis (EDA) Via Stable
Equilibrium Point [5.825190876052149]
我々は,EDAの効率とソリューション品質を改善するための安定平衡点(SEP)ベースのフレームワークを導入する。
提案手法の非常にユニークな特性は、SEPがデータセットのクラスタリング特性を直接符号化することである。
論文 参考訳(メタデータ) (2023-06-07T13:31:57Z) - Rethinking k-means from manifold learning perspective [122.38667613245151]
平均推定なしで直接データのクラスタを検出する新しいクラスタリングアルゴリズムを提案する。
具体的には,バタワースフィルタを用いてデータ点間の距離行列を構成する。
異なる視点に埋め込まれた相補的な情報をうまく活用するために、テンソルのSchatten p-norm正規化を利用する。
論文 参考訳(メタデータ) (2023-05-12T03:01:41Z) - Influence of Swarm Intelligence in Data Clustering Mechanisms [0.0]
自然にインスパイアされたSwarmベースのアルゴリズムは、データの欠如と一貫性のない大規模なデータセットに対処するために、データクラスタリングに使用される。
本稿では、これらの新しいアプローチの性能を概観し、問題のある状況に最適な方法の比較を行う。
論文 参考訳(メタデータ) (2023-05-07T08:40:50Z) - Learning to Bound Counterfactual Inference in Structural Causal Models
from Observational and Randomised Data [64.96984404868411]
我々は、従来のEMベースのアルゴリズムを拡張するための全体的なデータの特徴付けを導出する。
新しいアルゴリズムは、そのような混合データソースからモデルパラメータの(不特定性)領域を近似することを学ぶ。
反実的な結果に間隔近似を与え、それが特定可能な場合の点に崩壊する。
論文 参考訳(メタデータ) (2022-12-06T12:42:11Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。