論文の概要: Contrastive Federated Learning with Tabular Data Silos
- arxiv url: http://arxiv.org/abs/2409.06123v1
- Date: Tue, 10 Sep 2024 00:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:30:38.981655
- Title: Contrastive Federated Learning with Tabular Data Silos
- Title(参考訳): タブラルデータサイロを用いた対照的フェデレーション学習
- Authors: Achmad Ginanjar, Xue Li, Wen Hua,
- Abstract要約: データサイロから学習するためのソリューションとして,データサイロを用いたコントラシティブフェデレーション学習(CFL)を提案する。
CFLはこれらの課題に対処し、精度を向上させるために現在の手法より優れています。
複雑なクライアント環境において,コントラッシブ・フェデレート・ラーニング・アプローチの利点を示す肯定的な結果を示す。
- 参考スコア(独自算出の注目度): 9.516897428263146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from data silos is a difficult task for organizations that need to obtain knowledge of objects that appeared in multiple independent data silos. Objects in multi-organizations, such as government agents, are referred by different identifiers, such as driver license, passport number, and tax file number. The data distributions in data silos are mostly non-IID (Independently and Identically Distributed), labelless, and vertically partitioned (i.e., having different attributes). Privacy concerns harden the above issues. Conditions inhibit enthusiasm for collaborative work. While Federated Learning (FL) has been proposed to address these issues, the difficulty of labeling, namely, label costliness, often hinders optimal model performance. A potential solution lies in contrastive learning, an unsupervised self-learning technique to represent semantic data by contrasting similar data pairs. However, contrastive learning is currently not designed to handle tabular data silos that existed within multiple organizations where data linkage by quasi identifiers are needed. To address these challenges, we propose using semi-supervised contrastive federated learning, which we refer to as Contrastive Federated Learning with Data Silos (CFL). Our approach tackles the aforementioned issues with an integrated solution. Our experimental results demonstrate that CFL outperforms current methods in addressing these challenges and providing improvements in accuracy. Additionally, we present positive results that showcase the advantages of our contrastive federated learning approach in complex client environments.
- Abstract(参考訳): データサイロから学ぶことは、複数の独立したデータサイロに現れるオブジェクトの知識を得る必要がある組織にとって難しいタスクです。
政府エージェントのようなマルチ組織内のオブジェクトは、運転免許証、パスポート番号、税制ファイル番号など、異なる識別子によって参照される。
データサイロ内のデータ分布は、主に非IID(独立におよびIdentically Distributed)、ラベルなし、垂直に分割された(つまり、異なる属性を持つ)。
プライバシーに関する懸念は上記の問題を厳しくする。
条件は協調作業への熱意を阻害する。
フェデレートラーニング(FL)はこれらの問題に対処するために提案されているが、ラベルのコストラインのラベル付けの難しさは、しばしば最適なモデル性能を妨げる。
潜在的な解決策は、類似したデータペアを対比して意味データを表現する教師なしの自己学習技術であるコントラスト学習にある。
しかし、対照的な学習は、現在、擬似識別子によるデータリンクが必要な複数の組織に存在する表形式のデータサイロを扱うように設計されていない。
これらの課題に対処するために,データサイロを用いたコントラシブ・フェデレーション・ラーニング(Contrastive Federated Learning with Data Silos, CFL)と呼ばれる半教師付きコントラスト・フェデレーション・ラーニングを提案する。
当社のアプローチは、前述の問題に統合されたソリューションで取り組みます。
実験の結果,CFLはこれらの課題に対処し,精度を向上する上で,現在の手法よりも優れていることがわかった。
さらに, 複雑なクライアント環境において, コントラッシブ・フェデレート・ラーニング・アプローチの利点を示す肯定的な結果を示す。
関連論文リスト
- Rehearsal-Free Continual Federated Learning with Synergistic Regularization [14.258111055761479]
連続的フェデレートラーニング(Continuous Federated Learning, CFL)は、分散デバイスがトレーニングデータを継続的にシフトすることで、新しい概念を協調的に学習することを可能にする。
我々は、CFLのシナプスインテリジェンスを不均一なデータ設定で調整するFedSSIという、単純かつ効果的なCFLの正規化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T12:16:41Z) - A Stochastic Optimization Framework for Private and Fair Learning From Decentralized Data [14.748203847227542]
プライベート・フェア・フェデレーション・ラーニング(FL)のための新しいアルゴリズムを開発した。
我々のアルゴリズムは、サイロ間レコードレベル差分プライバシー(ISRL-DP)を満たす。
実験では、さまざまなプライバシレベルにわたるアルゴリズムのトレードオフとして、最先端の公正性・正確性フレームワークが実証されている。
論文 参考訳(メタデータ) (2024-11-12T15:51:35Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Approximate Gradient Coding for Privacy-Flexible Federated Learning with Non-IID Data [9.984630251008868]
この研究は、フェデレートラーニングにおける非IIDデータとストラグラー/ドロップアウトの課題に焦点を当てる。
クライアントのローカルデータの一部を非プライベートとしてモデル化する、プライバシフレキシブルなパラダイムを導入し、検討する。
論文 参考訳(メタデータ) (2024-04-04T15:29:50Z) - Privacy-preserving Federated Primal-dual Learning for Non-convex and Non-smooth Problems with Model Sparsification [51.04894019092156]
FL(Federated Learning)は,FLオーケストレーション(PS)の下でクライアント上でモデルをトレーニングする,急速に成長する領域として認識されている。
本稿では,非滑らかなFL問題に対して,新しい一次分離アルゴリズムを提案し,保証する。
その独特な洞察力のある性質とその分析も提示される。
論文 参考訳(メタデータ) (2023-10-30T14:15:47Z) - Feature Matching Data Synthesis for Non-IID Federated Learning [7.740333805796447]
フェデレーション学習(FL)は、中央サーバでデータを収集することなく、エッジデバイス上でニューラルネットワークをトレーニングする。
本稿では,局所モデル以外の補助データを共有するハード特徴マッチングデータ合成(HFMDS)手法を提案する。
プライバシーの保存性を向上するため,本研究では,実際の特徴を決定境界に向けて伝達する機能拡張手法を提案する。
論文 参考訳(メタデータ) (2023-08-09T07:49:39Z) - Differentially Private Federated Clustering over Non-IID Data [59.611244450530315]
クラスタリングクラスタ(FedC)問題は、巨大なクライアント上に分散されたラベルなしデータサンプルを、サーバのオーケストレーションの下で有限のクライアントに正確に分割することを目的としている。
本稿では,DP-Fedと呼ばれる差分プライバシー収束手法を用いた新しいFedCアルゴリズムを提案する。
提案するDP-Fedの様々な属性は、プライバシー保護の理論的解析、特に非識別的かつ独立に分散された(非i.d.)データの場合において得られる。
論文 参考訳(メタデータ) (2023-01-03T05:38:43Z) - Towards Efficient and Stable K-Asynchronous Federated Learning with
Unbounded Stale Gradients on Non-IID Data [10.299577499118548]
フェデレートラーニング(FL)は、複数の参加者が生データをアップロードすることなくグローバルモデルをトレーニングできる、新たなプライバシ保護パラダイムである。
本稿では,適応学習率(WKAFL)を持つ2段重み付き非同期FLを提案する。
ベンチマークと合成FLデータセットの両方に実装された実験は、WKAFLが既存のアルゴリズムよりも全体的なパフォーマンスが優れていることを示している。
論文 参考訳(メタデータ) (2022-03-02T16:17:23Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。