論文の概要: Federated Classification in Hyperbolic Spaces via Secure Aggregation of
Convex Hulls
- arxiv url: http://arxiv.org/abs/2308.06895v2
- Date: Tue, 16 Jan 2024 19:14:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:03:20.076364
- Title: Federated Classification in Hyperbolic Spaces via Secure Aggregation of
Convex Hulls
- Title(参考訳): 凸ハルの安全な集合による双曲空間のフェデレーション分類
- Authors: Saurav Prakash, Jin Sima, Chao Pan, Eli Chien, Olgica Milenkovic
- Abstract要約: 我々は,Poincareディスク用の凸SVM分類器の分散バージョンを開発した。
双曲空間における凸殻の複雑さを計算し,データ漏洩の程度を評価する。
本手法は, 階層的な単一細胞RNA-seqデータを含む, 多様なデータ集合を用いて, 異なるレポジトリに分散した患者から抽出した。
- 参考スコア(独自算出の注目度): 35.327709607897944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical and tree-like data sets arise in many applications, including
language processing, graph data mining, phylogeny and genomics. It is known
that tree-like data cannot be embedded into Euclidean spaces of finite
dimension with small distortion. This problem can be mitigated through the use
of hyperbolic spaces. When such data also has to be processed in a distributed
and privatized setting, it becomes necessary to work with new federated
learning methods tailored to hyperbolic spaces. As an initial step towards the
development of the field of federated learning in hyperbolic spaces, we propose
the first known approach to federated classification in hyperbolic spaces. Our
contributions are as follows. First, we develop distributed versions of convex
SVM classifiers for Poincar\'e discs. In this setting, the information conveyed
from clients to the global classifier are convex hulls of clusters present in
individual client data. Second, to avoid label switching issues, we introduce a
number-theoretic approach for label recovery based on the so-called integer
$B_h$ sequences. Third, we compute the complexity of the convex hulls in
hyperbolic spaces to assess the extent of data leakage; at the same time, in
order to limit communication cost for the hulls, we propose a new quantization
method for the Poincar\'e disc coupled with Reed-Solomon-like encoding. Fourth,
at the server level, we introduce a new approach for aggregating convex hulls
of the clients based on balanced graph partitioning. We test our method on a
collection of diverse data sets, including hierarchical single-cell RNA-seq
data from different patients distributed across different repositories that
have stringent privacy constraints. The classification accuracy of our method
is up to $\sim 11\%$ better than its Euclidean counterpart, demonstrating the
importance of privacy-preserving learning in hyperbolic spaces.
- Abstract(参考訳): 階層的および木のようなデータセットは、言語処理、グラフデータマイニング、系統学、ゲノム学など、多くの応用に現れる。
木のようなデータは、小さな歪みを持つ有限次元のユークリッド空間に埋め込むことはできないことが知られている。
この問題は双曲空間を用いて緩和することができる。
このようなデータを分散および民営化された設定で処理する必要がある場合、双曲空間に合わせた新しい連合学習法に取り組む必要がある。
双曲空間における連邦学習の分野の発展に向けた最初のステップとして、双曲空間における連邦分類への最初の既知のアプローチを提案する。
私たちの貢献は以下の通りです。
まず,Poincar\'eディスク用の凸SVM分類器の分散バージョンを開発する。
この設定では、クライアントからグローバル分類器に伝達される情報は、個々のクライアントデータに存在するクラスタの凸包である。
次に,ラベルスイッチング問題を回避するために,いわゆる整数$b_h$シーケンスに基づくラベルリカバリのための数論的手法を導入する。
第3に,双曲空間における凸包の複雑さを計算し,データの漏洩の程度を評価するとともに,包の通信コストを制限するため,reed-solomon様符号化と組み合わされたpoincar\'eディスクの新しい量子化法を提案する。
第4に、サーバレベルでは、バランスの取れたグラフ分割に基づいてクライアントの凸殻を集約する新しいアプローチを導入する。
本手法は,プライバシの制約が厳しい異なるリポジトリに分散した異なる患者からの階層型単細胞rna-seqデータを含む,多様なデータセットの集合上でテストを行う。
本手法の分類精度はeuclideanよりも最大$\sim 11\%向上し,双曲空間におけるプライバシ保存学習の重要性を実証した。
関連論文リスト
- Faithful Density-Peaks Clustering via Matrix Computations on MPI Parallelization System [7.594123537718585]
密度ピーククラスタリング(DP)は任意の形状のクラスタを検出し、非ユークリッド空間データをクラスタリングする能力を持つ。
本稿では,2種類のベクトル状距離行列と逆前ノードファイリングポリシを併用した忠実かつ並列なDP法を提案する。
本手法は,コミュニティ検出などの非ユークリッドデータをクラスタリングすると同時に,大規模ユークリッドデータをクラスタリングする場合の精度において,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-06-18T06:05:45Z) - Distributional Reduction: Unifying Dimensionality Reduction and Clustering with Gromov-Wasserstein [56.62376364594194]
教師なし学習は、潜在的に大きな高次元データセットの基盤構造を捉えることを目的としている。
本研究では、最適輸送のレンズの下でこれらのアプローチを再検討し、Gromov-Wasserstein問題と関係を示す。
これにより、分散還元と呼ばれる新しい一般的なフレームワークが公開され、DRとクラスタリングを特別なケースとして回復し、単一の最適化問題内でそれらに共同で対処することができる。
論文 参考訳(メタデータ) (2024-02-03T19:00:19Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Provably Accurate and Scalable Linear Classifiers in Hyperbolic Spaces [39.71927912296049]
スケーラブルで単純な双曲型線形分類器を学習するための統一的なフレームワークを提案する。
我々のアプローチの要点は、ポアンカーの球体モデルに焦点を合わせ、接空間形式を用いて分類問題を定式化することである。
Poincarの2階と戦略的パーセプトロンの優れた性能は、提案フレームワークが双曲空間における一般的な機械学習問題にまで拡張可能であることを示している。
論文 参考訳(メタデータ) (2022-03-07T21:36:21Z) - Lattice-Based Methods Surpass Sum-of-Squares in Clustering [98.46302040220395]
クラスタリングは教師なし学習における基本的なプリミティブである。
最近の研究は、低次手法のクラスに対する低い境界を確立している。
意外なことに、この特定のクラスタリングモデルのtextitdoesは、統計的-計算的ギャップを示さない。
論文 参考訳(メタデータ) (2021-12-07T18:50:17Z) - Index $t$-SNE: Tracking Dynamics of High-Dimensional Datasets with
Coherent Embeddings [1.7188280334580195]
本稿では,クラスタの位置を保存した新しいものを作成するために,埋め込みを再利用する手法を提案する。
提案アルゴリズムは,新しい項目を埋め込むために$t$-SNEと同じ複雑さを持つ。
論文 参考訳(メタデータ) (2021-09-22T06:45:37Z) - Highly Scalable and Provably Accurate Classification in Poincare Balls [40.82908295137667]
我々は、スケーラブルで単純な双曲型線形分類器を証明可能な性能保証で学習するための統一的なフレームワークを構築した。
提案手法は,新しい双曲型および二階型パーセプトロンアルゴリズムと,双曲型サポートベクトルマシン分類器の効率的かつ高精度な凸最適化設定を含む。
数百万の点からなる合成データセットと、シングルセルRNA-seq式測定、CIFAR10、Fashion-MNIST、mini-ImageNetのような複雑な実世界のデータセットの性能評価を行う。
論文 参考訳(メタデータ) (2021-09-08T16:59:39Z) - Stochastic Sparse Subspace Clustering [20.30051592270384]
最先端のサブスペースクラスタリング手法は、各データポイントを他のデータポイントの線形結合として表現する自己表現モデルに基づいている。
本稿では,データポイントのランダムなドロップアウトに基づくオーバーセグメンテーションの問題に対処するために,ドロップアウトを導入する。
これにより、スケーラブルで柔軟なスパースサブスペースクラスタリングアプローチ(Sparse Subspace Clustering)が実現される。
論文 参考訳(メタデータ) (2020-05-04T13:09:17Z) - Robust Large-Margin Learning in Hyperbolic Space [64.42251583239347]
ユークリッド空間ではなく双曲型で分類器を学ぶための最初の理論的保証を示す。
本研究では, 対向例の慎重な注入に頼って, 大面積超平面を効率よく学習するアルゴリズムを提案する。
双曲空間によく埋め込まれる階層的データに対して、低埋め込み次元は優れた保証を保証することを証明している。
論文 参考訳(メタデータ) (2020-04-11T19:11:30Z) - Learnable Subspace Clustering [76.2352740039615]
本研究では,大規模サブスペースクラスタリング問題を効率的に解くために,学習可能なサブスペースクラスタリングパラダイムを開発する。
鍵となる考え方は、高次元部分空間を下層の低次元部分空間に分割するパラメトリック関数を学ぶことである。
我々の知る限り、本論文は、サブスペースクラスタリング手法の中で、数百万のデータポイントを効率的にクラスタ化する最初の試みである。
論文 参考訳(メタデータ) (2020-04-09T12:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。