論文の概要: Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization
- arxiv url: http://arxiv.org/abs/2406.07948v4
- Date: Tue, 2 Jul 2024 15:33:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 12:13:48.855284
- Title: Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization
- Title(参考訳): Ents: コミュニケーション最適化による決定木のための効率的な3要素学習フレームワーク
- Authors: Guopeng Lin, Weili Han, Wenqiang Ruan, Ruisheng Zhou, Lushan Song, Bingshuai Li, Yunfeng Shao,
- Abstract要約: セキュアなマルチパーティ計算に基づく意思決定ツリーのためのマルチパーティトレーニングフレームワークにより、複数のパーティが、プライバシ保護を備えた分散プライベートデータ上で、高性能モデルをトレーニングすることができる。
決定木のための既存のマルチパーティトレーニングフレームワークは、通信オーバーヘッドが大きいため、コミュニケーションの非効率性を実証する。
本稿では,コミュニケーション最適化による意思決定木のための効率的な3要素学習フレームワークであるEntsを提案する。
- 参考スコア(独自算出の注目度): 11.331841403808541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-party training frameworks for decision trees based on secure multi-party computation enable multiple parties to train high-performance models on distributed private data with privacy preservation. The training process essentially involves frequent dataset splitting according to the splitting criterion (e.g. Gini impurity). However, existing multi-party training frameworks for decision trees demonstrate communication inefficiency due to the following issues: (1) They suffer from huge communication overhead in securely splitting a dataset with continuous attributes. (2) They suffer from huge communication overhead due to performing almost all the computations on a large ring to accommodate the secure computations for the splitting criterion. In this paper, we are motivated to present an efficient three-party training framework, namely Ents, for decision trees by communication optimization. For the first issue, we present a series of training protocols based on the secure radix sort protocols to efficiently and securely split a dataset with continuous attributes. For the second issue, we propose an efficient share conversion protocol to convert shares between a small ring and a large ring to reduce the communication overhead incurred by performing almost all the computations on a large ring. Experimental results from eight widely used datasets show that Ents outperforms state-of-the-art frameworks by $5.5\times \sim 9.3\times$ in communication sizes and $3.9\times \sim 5.3\times$ in communication rounds. In terms of training time, Ents yields an improvement of $3.5\times \sim 6.7\times$. To demonstrate its practicality, Ents requires less than three hours to securely train a decision tree on a widely used real-world dataset (Skin Segmentation) with more than 245,000 samples in the WAN setting.
- Abstract(参考訳): セキュアなマルチパーティ計算に基づく意思決定ツリーのためのマルチパーティトレーニングフレームワークにより、複数のパーティが、プライバシ保護を備えた分散プライベートデータ上で、高性能モデルをトレーニングすることができる。
トレーニングプロセスは基本的に、分割基準に従って頻繁にデータセット分割を行う(e g Gini impurity)。
しかし,決定木に対する既存のマルチパーティトレーニングフレームワークは,(1)連続的な属性を持つデータセットを安全に分割する際の通信オーバーヘッドの増大に悩まされている。
2) 分割基準に対するセキュアな計算に適合するため, 大規模リング上でほぼ全ての計算を行うため, 通信オーバーヘッドの増大に悩まされる。
本稿では,コミュニケーション最適化による意思決定木のための効率的な3要素学習フレームワークであるEntsを提案する。
最初の問題として、セキュアなradixソートプロトコルに基づく一連のトレーニングプロトコルを提示し、データセットを連続的な属性で効率的に安全に分割する。
2つ目の問題として,大規模リング上でほぼ全ての計算を行うことで発生する通信オーバーヘッドを低減するために,小リングと大リング間で共有を変換する効率的な共有変換プロトコルを提案する。
8つの広く使われているデータセットによる実験結果によると、Entsは最先端のフレームワークを5.5\times \sim 9.3\times$と3.9\times \sim 5.3\times$で上回っている。
トレーニング時間の面では、Ents は $3.5\times \sim 6.7\times$ である。
その実用性を示すために、Entsは、WAN設定で245,000以上のサンプルを使用して、広く使用されている実世界のデータセット(Skin Segmentation)上で、決定ツリーをセキュアにトレーニングするのに3時間もかからない。
関連論文リスト
- Scalable Federated Unlearning via Isolated and Coded Sharding [76.12847512410767]
フェデレートされたアンラーニングは、クライアントレベルのデータエフェクトを削除するための有望なパラダイムとして登場した。
本稿では,分散シャーディングと符号化コンピューティングに基づく,スケーラブルなフェデレーション・アンラーニング・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T08:41:45Z) - High-order Joint Constituency and Dependency Parsing [15.697429723696011]
我々は、入力文に対して、共同で選挙区と依存木を解析する話題、すなわち、互換性のある選挙区と依存木を同時に生成する話題を再考する。
我々は、7つの言語の実験と分析を行い、リッチリソースと低リソースの両方のシナリオをカバーしています。
論文 参考訳(メタデータ) (2023-09-21T08:45:41Z) - Communication-Efficient Decentralized Federated Learning via One-Bit
Compressive Sensing [52.402550431781805]
分散連合学習(DFL)は、様々なアプリケーションにまたがる実用性によって人気を博している。
集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのはより難しい。
我々は,iADM (iexact alternating direction method) の枠組みに基づく新しいアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。
ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文 参考訳(メタデータ) (2023-02-20T08:37:44Z) - Scalable Optimal Multiway-Split Decision Trees with Constraints [3.092691764363848]
決定変数の個数が$N$とは独立な経路に基づく新しいMIP定式化を提案する。
本フレームワークは, 規則が短いため, 通常の二分木よりも解釈しやすいマルチウェイスプリットツリーを生成する。
我々は,最大1,008,372個のサンプルを含むデータセットについて,既存のMIPベースの決定木モデルでは数千点を超えるデータに対してうまくスケールしないことを示す。
論文 参考訳(メタデータ) (2023-02-14T03:48:48Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - On multivariate randomized classification trees: $l_0$-based sparsity,
VC~dimension and decomposition methods [0.9346127431927981]
Blanquero et alで提案された非線形連続最適化の定式化について検討する。
我々はまず、$l_0$ノルムの凹凸近似に基づいて、そのような木をスパース化する代替手法を検討する。
より大規模なデータセットを用いた実験により,提案手法は精度を損なうことなく,学習時間を著しく短縮できることが示された。
論文 参考訳(メタデータ) (2021-12-09T22:49:08Z) - Privacy-Preserving Training of Tree Ensembles over Continuous Data [9.887824375079553]
分散データ上の決定ツリーのプライバシ保護トレーニングのための既存のプロトコルのほとんどは、その機能がカテゴリ的であることを前提としている。
ソーティングは、MPCで高価な操作であるため、そのような高価なステップを避けるセキュアなプロトコルを見つけることは、プライバシ保護機械学習における関連する問題である。
本稿では,連続的な特徴を持つデータに基づく決定木に基づくモデルのセキュアなトレーニングのための,より効率的な3つの選択肢を提案する。
論文 参考訳(メタデータ) (2021-06-05T01:28:59Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。