論文の概要: TablePuppet: A Generic Framework for Relational Federated Learning
- arxiv url: http://arxiv.org/abs/2403.15839v1
- Date: Sat, 23 Mar 2024 13:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:52:58.787660
- Title: TablePuppet: A Generic Framework for Relational Federated Learning
- Title(参考訳): TablePuppet:リレーショナルフェデレーションラーニングのためのジェネリックフレームワーク
- Authors: Lijie Xu, Chulin Xie, Yiran Guo, Gustavo Alonso, Bo Li, Guoliang Li, Wei Wang, Wentao Wu, Ce Zhang,
- Abstract要約: 現在のフェデレーションラーニング(FL)は、分散トレーニングデータを単一のテーブルとして捉え、(行によって)水平または(列によって)垂直に分割する。
このシナリオでは、トレーニングデータを取得するために、結合やユニオンのような複雑な操作が必要です。
我々は,学習プロセスを2段階に分解するRFLの汎用フレームワークであるTablePuppetを提案し,(1)結合(LoJ)の学習,(2)結合(LoU)の学習の2段階を提案する。
- 参考スコア(独自算出の注目度): 27.274856376963356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current federated learning (FL) approaches view decentralized training data as a single table, divided among participants either horizontally (by rows) or vertically (by columns). However, these approaches are inadequate for handling distributed relational tables across databases. This scenario requires intricate SQL operations like joins and unions to obtain the training data, which is either costly or restricted by privacy concerns. This raises the question: can we directly run FL on distributed relational tables? In this paper, we formalize this problem as relational federated learning (RFL). We propose TablePuppet, a generic framework for RFL that decomposes the learning process into two steps: (1) learning over join (LoJ) followed by (2) learning over union (LoU). In a nutshell, LoJ pushes learning down onto the vertical tables being joined, and LoU further pushes learning down onto the horizontal partitions of each vertical table. TablePuppet incorporates computation/communication optimizations to deal with the duplicate tuples introduced by joins, as well as differential privacy (DP) to protect against both feature and label leakages. We demonstrate the efficiency of TablePuppet in combination with two widely-used ML training algorithms, stochastic gradient descent (SGD) and alternating direction method of multipliers (ADMM), and compare their computation/communication complexity. We evaluate the SGD/ADMM algorithms developed atop TablePuppet by training diverse ML models. Our experimental results show that TablePuppet achieves model accuracy comparable to the centralized baselines running directly atop the SQL results. Moreover, ADMM takes less communication time than SGD to converge to similar model accuracy.
- Abstract(参考訳): 現在のフェデレーションラーニング(FL)では、分散トレーニングデータを単一のテーブルとして、水平(行)または垂直(列)に分割する。
しかし、これらのアプローチはデータベース間の分散リレーショナルテーブルを扱うのに不十分である。
このシナリオでは、トレーニングデータを取得するには、結合や結合のような複雑なSQL操作が必要になる。
FLを直接分散リレーショナルテーブル上で実行できますか?
本稿では,この問題をリレーショナル・フェデレーション・ラーニング(RFL)として定式化する。
本研究では,学習プロセスを2つのステップに分解するRFLの汎用フレームワークであるTablePuppetを提案し,(1)結合(LoJ)の学習,(2)結合(LoU)の学習を提案する。
簡単に言うと、LoJは学習を結合する垂直テーブルに押し下げ、LoUはさらに学習を各垂直テーブルの水平パーティションに押し上げる。
TablePuppetには、ジョインによって導入された重複タプルに対処するための計算/通信最適化と、機能とラベルのリークから保護するための差分プライバシー(DP)が含まれている。
そこで本稿では,TablePuppetとSGD(確率勾配勾配降下法)と乗算器の交互方向法(ADMM)を併用し,計算・通信の複雑さを比較した。
各種MLモデルの学習により,TablePuppet上に開発したSGD/ADMMアルゴリズムの評価を行った。
実験の結果,TablePuppet はSQL 結果を直接実行した集中型ベースラインに匹敵するモデル精度を達成できた。
さらに、ADMMはSGDよりも通信時間が少なく、類似したモデルの精度に収束する。
関連論文リスト
- ACCIO: Table Understanding Enhanced via Contrastive Learning with Aggregations [0.0]
ACCIO(tAble understanding enhanCed via Contrastive learnIng with aggregatiOns)は、テーブル理解を強化するための新しいアプローチである。
ACCIOは、最先端の手法と比較して、マクロF1スコア91.1の競争性能を達成している。
論文 参考訳(メタデータ) (2024-11-07T05:35:39Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - OpenTab: Advancing Large Language Models as Open-domain Table Reasoners [38.29047314758911]
OpenTabは、Large Language Models (LLM)を利用したオープンドメインテーブル推論フレームワークである。
OpenTabはオープンドメインとクローズドドメインの両方でベースラインを大幅に上回り、最大21.5%の精度を実現している。
論文 参考訳(メタデータ) (2024-02-22T08:01:01Z) - Relational Deep Learning: Graph Representation Learning on Relational
Databases [69.7008152388055]
複数のテーブルにまたがって配置されたデータを学ぶために、エンドツーエンドの表現アプローチを導入する。
メッセージパッシンググラフニューラルネットワークは、自動的にグラフを学習して、すべてのデータ入力を活用する表現を抽出する。
論文 参考訳(メタデータ) (2023-12-07T18:51:41Z) - SEMv2: Table Separation Line Detection Based on Instance Segmentation [96.36188168694781]
SEMv2(SEM: Split, Embed, Merge)と呼ばれるテーブル構造認識器を提案する。
本稿では,テーブル分離ラインのインスタンスレベルの識別問題に対処し,条件付き畳み込みに基づくテーブル分離ライン検出戦略を提案する。
SEMv2を包括的に評価するために、iFLYTABと呼ばれるテーブル構造認識のためのより困難なデータセットも提示する。
論文 参考訳(メタデータ) (2023-03-08T05:15:01Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - DeepJoin: Joinable Table Discovery with Pre-trained Language Models [10.639106014582756]
既存のアプローチは、統一されたビューを作成するためのテーブルを組み合わせる最も一般的な方法である、等結合をターゲットにしている。
Deepjoinは、正確で効率的な結合可能なテーブルディスカバリのためのディープラーニングモデルである。
Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。
論文 参考訳(メタデータ) (2022-12-15T02:40:57Z) - Model Joins: Enabling Analytics Over Joins of Absent Big Tables [9.797488793708624]
この作業では、これらの課題に対処するフレームワーク、Model Joinが紹介されている。
フレームワークは、欠席したテーブルのテーブルごとのモデルを統合して結合する。
近似はモデルに由来するが、Model Joinフレームワークに由来するものではない。
論文 参考訳(メタデータ) (2022-06-21T14:28:24Z) - TransTab: Learning Transferable Tabular Transformers Across Tables [42.859662256134584]
タブラルデータ(またはテーブル)は機械学習(ML)で最も広く使われているデータ形式である
異なる列の異なるテーブルを マージするには 重いデータクリーニングが必要です
TransTabは各サンプル(テーブル内の行)を一般化可能な埋め込みベクトルに変換する。
論文 参考訳(メタデータ) (2022-05-19T05:34:46Z) - Meta Clustering Learning for Large-scale Unsupervised Person
Re-identification [124.54749810371986]
メタクラスタリング学習(MCL)と呼ばれる「大規模タスクのための小さなデータ」パラダイムを提案する。
MCLは、第1フェーズのトレーニングのためにコンピューティングを節約するためにクラスタリングを介して、未ラベルデータのサブセットを擬似ラベル付けするのみである。
提案手法は計算コストを大幅に削減すると同時に,従来よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2021-11-19T04:10:18Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。