論文の概要: Scalable and Sparsity-Aware Privacy-Preserving K-means Clustering with
Application to Fraud Detection
- arxiv url: http://arxiv.org/abs/2208.06093v1
- Date: Fri, 12 Aug 2022 02:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:41:48.845918
- Title: Scalable and Sparsity-Aware Privacy-Preserving K-means Clustering with
Application to Fraud Detection
- Title(参考訳): 拡張性と分散性を考慮したプライバシー保護型K平均クラスタリングとフラッド検出への応用
- Authors: Yingting Liu, Chaochao Chen, Jamie Cui, Li Wang, Lei Wang
- Abstract要約: 本稿では,3つの特徴を持つ効率的な空間認識型K-meansのための新しいフレームワークを提案する。
まず、私たちのフレームワークはデータ非依存のオフラインフェーズと、より高速なオンラインフェーズに分けられます。
第二に、オンラインとオフラインの両方のフェーズにおけるベクトル化技術を活用します。
第3に,データ分散シナリオにスパース行列乗法を適用して効率を向上する。
- 参考スコア(独自算出の注目度): 12.076075765740502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: K-means is one of the most widely used clustering models in practice. Due to
the problem of data isolation and the requirement for high model performance,
how to jointly build practical and secure K-means for multiple parties has
become an important topic for many applications in the industry. Existing work
on this is mainly of two types. The first type has efficiency advantages, but
information leakage raises potential privacy risks. The second type is provable
secure but is inefficient and even helpless for the large-scale data sparsity
scenario. In this paper, we propose a new framework for efficient
sparsity-aware K-means with three characteristics. First, our framework is
divided into a data-independent offline phase and a much faster online phase,
and the offline phase allows to pre-compute almost all cryptographic
operations. Second, we take advantage of the vectorization techniques in both
online and offline phases. Third, we adopt a sparse matrix multiplication for
the data sparsity scenario to improve efficiency further. We conduct
comprehensive experiments on three synthetic datasets and deploy our model in a
real-world fraud detection task. Our experimental results show that, compared
with the state-of-the-art solution, our model achieves competitive performance
in terms of both running time and communication size, especially on sparse
datasets.
- Abstract(参考訳): K平均は、実際に最も広く使われているクラスタリングモデルの一つである。
データ分離の問題と高いモデル性能の要件により、複数のパーティで実践的でセキュアなk-meanを共同構築する方法が、業界における多くのアプリケーションにとって重要なトピックとなっている。
既存の作業は主に2つのタイプから成っている。
最初のタイプは効率上の利点があるが、情報漏洩は潜在的なプライバシーリスクを引き起こす。
第2のタイプはセキュアだが、大規模なデータスパーシティシナリオでは非効率であり、無力である。
本稿では,3つの特徴を持つ効率的な空間認識型K平均の枠組みを提案する。
まず、当社のフレームワークは、データ非依存のオフラインフェーズと、はるかに高速なオンラインフェーズに分割されます。
第2に、オンラインとオフラインの両方のフェーズでベクトル化技術を利用する。
第3に,データ分散シナリオにスパース行列乗法を適用して効率を向上する。
3つの合成データセットに関する包括的な実験を行い,実世界の不正検出タスクにモデルをデプロイする。
実験結果から,本モデルは最先端のソリューションと比較して,実行時間と通信サイズ,特にスパースデータセットにおいて競争性能が向上することが示された。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - Revisiting Cascaded Ensembles for Efficient Inference [32.914852531806]
機械学習推論をより効率的にするための一般的なアプローチは、サンプル固有の適応スキームを使用することである。
本研究では適応推論の簡単なスキームについて検討する。
私たちは、資源効率の良いモデルから始まり、より大きくより表現力のあるモデルへと成長する、アンサンブルのカスケード(CoE)を構築します。
論文 参考訳(メタデータ) (2024-07-02T15:14:12Z) - REP: Resource-Efficient Prompting for On-device Continual Learning [23.92661395403251]
オンデバイス連続学習(CL)は、モデル精度と資源効率の協調最適化を実践するために必要である。
CNNベースのCLは資源効率に優れており、ViTベースのCLはモデル性能に優れていると一般的に信じられている。
本稿では,プロンプトベースのリハーサルフリー手法を特化して資源効率を向上させるREPを紹介する。
論文 参考訳(メタデータ) (2024-06-07T09:17:33Z) - Empowering HWNs with Efficient Data Labeling: A Clustered Federated
Semi-Supervised Learning Approach [2.046985601687158]
CFL(Clustered Federated Multitask Learning)は,統計的課題を克服するための効果的な戦略として注目されている。
本稿では,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を紹介する。
その結果,ラベル付きデータとラベル付きデータの比率が異なる場合,CFSLはテスト精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善することがわかった。
論文 参考訳(メタデータ) (2024-01-19T11:47:49Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - SVNet: Where SO(3) Equivariance Meets Binarization on Point Cloud
Representation [65.4396959244269]
本論文は,3次元学習アーキテクチャを構築するための一般的なフレームワークを設計することによる課題に対処する。
提案手法はPointNetやDGCNNといった一般的なバックボーンに適用できる。
ModelNet40、ShapeNet、および実世界のデータセットであるScanObjectNNの実験では、この手法が効率、回転、精度の間の大きなトレードオフを達成することを示した。
論文 参考訳(メタデータ) (2022-09-13T12:12:19Z) - Open-Set Semi-Supervised Learning for 3D Point Cloud Understanding [62.17020485045456]
半教師付き学習(SSL)では、ラベル付きデータと同じ分布からラベル付きデータが引き出されることが一般的である。
サンプル重み付けによりラベルなしデータを選択的に活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T16:09:17Z) - DANCE: DAta-Network Co-optimization for Efficient Segmentation Model
Training and Inference [85.02494022662505]
DANCEは、効率的なセグメンテーションモデルのトレーニングと推論のための自動データネットワーク協調最適化である。
入力イメージを適応的にダウンサンプル/ドロップする自動データスライミングを統合し、画像の空間的複雑さによって導かれるトレーニング損失に対するそれに対応するコントリビューションを制御する。
実験と非難研究により、DANCEは効率的なセグメンテーションに向けて「オールウィン」を達成できることを示した。
論文 参考訳(メタデータ) (2021-07-16T04:58:58Z) - Bandit Data-Driven Optimization [62.01362535014316]
機械学習パイプラインが設定で有用になるためには、克服しなければならない大きな問題点が4つある。
これらの問題点に対処する最初の反復予測記述フレームワークであるBanditデータ駆動最適化を導入する。
本稿では,このフレームワークの新しいアルゴリズム PROOF を提案する。
論文 参考訳(メタデータ) (2020-08-26T17:50:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。