論文の概要: Distributed clustering in partially overlapping feature spaces
- arxiv url: http://arxiv.org/abs/2510.09799v1
- Date: Fri, 10 Oct 2025 19:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.629323
- Title: Distributed clustering in partially overlapping feature spaces
- Title(参考訳): 部分重なり合う特徴空間における分散クラスタリング
- Authors: Alessio Maritan, Luca Schenato,
- Abstract要約: 我々は,各参加者が利用可能な機能のサブセットのみを含むプライベートデータセットを持つ,分散クラスタリングの新たな問題を紹介し,対処する。
このシナリオは、医療など、さまざまな機関が同様の患者の補完的なデータを持っている多くの現実世界のアプリケーションで発生します。
このような特徴空間の不均一性を示す分散クラスタリング問題の解法に適した2つの異なるアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.8486713415198972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce and address a novel distributed clustering problem where each participant has a private dataset containing only a subset of all available features, and some features are included in multiple datasets. This scenario occurs in many real-world applications, such as in healthcare, where different institutions have complementary data on similar patients. We propose two different algorithms suitable for solving distributed clustering problems that exhibit this type of feature space heterogeneity. The first is a federated algorithm in which participants collaboratively update a set of global centroids. The second is a one-shot algorithm in which participants share a statistical parametrization of their local clusters with the central server, who generates and merges synthetic proxy datasets. In both cases, participants perform local clustering using algorithms of their choice, which provides flexibility and personalized computational costs. Pretending that local datasets result from splitting and masking an initial centralized dataset, we identify some conditions under which the proposed algorithms are expected to converge to the optimal centralized solution. Finally, we test the practical performance of the algorithms on three public datasets.
- Abstract(参考訳): 我々は、各参加者が利用可能な機能のサブセットのみを含むプライベートデータセットを持ち、いくつかの機能が複数のデータセットに含まれている、新しい分散クラスタリング問題を紹介し、対処する。
このシナリオは、医療など、さまざまな機関が同様の患者の補完的なデータを持っている多くの現実世界のアプリケーションで発生します。
このような特徴空間の不均一性を示す分散クラスタリング問題の解法に適した2つの異なるアルゴリズムを提案する。
1つ目は、参加者が協力してグローバルなセントロイドを更新するフェデレーションアルゴリズムである。
2つ目は、参加者がローカルクラスタの統計的パラメータ化を中央サーバと共有するワンショットアルゴリズムで、合成プロキシデータセットを生成してマージする。
どちらの場合も、参加者は自身の選択したアルゴリズムを使用してローカルクラスタリングを行い、柔軟性とパーソナライズされた計算コストを提供する。
局所的なデータセットが初期集中型データセットの分割とマスキングによって生じることを前提として、提案アルゴリズムが最適集中型ソリューションに収束することを期待する条件を特定する。
最後に、3つの公開データセット上でアルゴリズムの実用的な性能をテストする。
関連論文リスト
- Towards Fair Representation: Clustering and Consensus [1.7243216387069678]
特定の保護された属性に関して、代表的であるだけでなく公平でもあるコンセンサスクラスタリングを見つけます。
調査の一環として,既存のクラスタリングを最小限に修正して公平性を実現する方法について検討した。
我々は,同値なグループ表現とニア線形時間定数係数近似アルゴリズムを用いたデータセットの最適アルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-06-10T10:33:21Z) - Adaptive and Robust DBSCAN with Multi-agent Reinforcement Learning [53.527506374566485]
本稿では,多エージェント強化学習クラスタフレームワーク,すなわちAR-DBSCANを用いた新しいAdaptive and Robust DBSCANを提案する。
我々は、AR-DBSCANが、NMIおよびARIメトリクスの最大144.1%と175.3%のクラスタリング精度を向上するだけでなく、支配的なパラメータを確実に見つけることができることを示した。
論文 参考訳(メタデータ) (2025-05-07T11:37:23Z) - Dynamically Weighted Federated k-Means [0.0]
フェデレートされたクラスタリングにより、複数のデータソースが協力してデータをクラスタリングし、分散化とプライバシ保護を維持できる。
我々は,ロイドのk-meansクラスタリング法に基づいて,動的に重み付けされたk-means (DWF k-means) という新しいクラスタリングアルゴリズムを提案する。
我々は、クラスタリングスコア、精度、およびv尺度の観点から、アルゴリズムの性能を評価するために、複数のデータセットとデータ分散設定の実験を行う。
論文 参考訳(メタデータ) (2023-10-23T12:28:21Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - A One-shot Framework for Distributed Clustered Learning in Heterogeneous
Environments [54.172993875654015]
異種環境における分散学習のためのコミュニケーション効率化手法のファミリーを提案する。
ユーザによるローカル計算に基づくワンショットアプローチと、サーバにおけるクラスタリングベースのアグリゲーションステップは、強力な学習保証を提供する。
厳密な凸問題に対しては,ユーザ毎のデータ点数がしきい値を超える限り,提案手法はサンプルサイズの観点から順序最適平均二乗誤差率を達成する。
論文 参考訳(メタデータ) (2022-09-22T09:04:10Z) - Differentially-Private Clustering of Easy Instances [67.04951703461657]
異なるプライベートクラスタリングでは、個々のデータポイントに関する情報を公開せずに、$k$のクラスタセンターを特定することが目標だ。
我々は、データが"簡単"である場合にユーティリティを提供する実装可能な差分プライベートクラスタリングアルゴリズムを提供する。
我々は、非プライベートクラスタリングアルゴリズムを簡単なインスタンスに適用し、結果をプライベートに組み合わせることのできるフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-29T08:13:56Z) - Determinantal consensus clustering [77.34726150561087]
本稿では,クラスタリングアルゴリズムのランダム再起動における決定点プロセス (DPP) の利用を提案する。
DPPは部分集合内の中心点の多様性を好んでいる。
DPPとは対照的に、この手法は多様性の確保と、すべてのデータフェースについて良好なカバレッジを得るために失敗することを示す。
論文 参考訳(メタデータ) (2021-02-07T23:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。