論文の概要: PADME-SoSci: A Platform for Analytics and Distributed Machine Learning
for the Social Sciences
- arxiv url: http://arxiv.org/abs/2303.18200v2
- Date: Mon, 3 Apr 2023 07:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 20:17:30.401453
- Title: PADME-SoSci: A Platform for Analytics and Distributed Machine Learning
for the Social Sciences
- Title(参考訳): PADME-SoSci: 社会科学のための分析と分散機械学習のためのプラットフォーム
- Authors: Zeyd Boukhers and Arnim Bleier and Yeliz Ucer Yediel and Mio
Hienstorfer-Heitmann and Mehrshad Jaberansary and Adamantios Koumpis and Oya
Beyan
- Abstract要約: PADMEは、モデルの実装とトレーニングを連携させる分散分析ツールである。
これにより、すべてのデータが単一の場所にあるかのようにモデルをトレーニングしながら、ロケーションをまたいだデータ分析が可能になる。
- 参考スコア(独自算出の注目度): 4.294774517325059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data privacy and ownership are significant in social data science, raising
legal and ethical concerns. Sharing and analyzing data is difficult when
different parties own different parts of it. An approach to this challenge is
to apply de-identification or anonymization techniques to the data before
collecting it for analysis. However, this can reduce data utility and increase
the risk of re-identification. To address these limitations, we present PADME,
a distributed analytics tool that federates model implementation and training.
PADME uses a federated approach where the model is implemented and deployed by
all parties and visits each data location incrementally for training. This
enables the analysis of data across locations while still allowing the model to
be trained as if all data were in a single location. Training the model on data
in its original location preserves data ownership. Furthermore, the results are
not provided until the analysis is completed on all data locations to ensure
privacy and avoid bias in the results.
- Abstract(参考訳): データプライバシと所有権は、社会データ科学において重要であり、法的および倫理的な懸念を提起する。
異なるパーティがデータの一部を所有している場合、データの共有と分析は難しい。
この課題に対するアプローチは、分析のために収集する前にデータに非識別または匿名化技術を適用することである。
しかし、これによりデータの有用性が低下し、再識別のリスクが高まる。
これらの制約に対処するため,モデル実装とトレーニングを連携させる分散分析ツールであるPADMEを提案する。
PADMEは、モデルをすべてのパーティによって実装し、デプロイするフェデレートされたアプローチを使用して、トレーニングのために各データロケーションを漸進的に訪問する。
これにより、すべてのデータが単一の場所にあるかのようにモデルをトレーニングしながら、ロケーションをまたいだデータ分析が可能になる。
元の場所でデータに基づいてモデルをトレーニングすることは、データのオーナシップを保存する。
さらに、すべてのデータロケーションで分析が完了するまで結果が提供されず、プライバシを確保し、結果のバイアスを回避する。
関連論文リスト
- Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Benchmarking FedAvg and FedCurv for Image Classification Tasks [1.376408511310322]
本稿では,同じフェデレーションネットワークにおけるデータの統計的不均一性の問題に焦点をあてる。
FedAvg、FedProx、Federated Curvature(FedCurv)など、いくつかのフェデレートラーニングアルゴリズムがすでに提案されている。
この研究の副産物として、FLコミュニティからのさらなる比較を容易にするために使用したデータセットの非IIDバージョンをリリースします。
論文 参考訳(メタデータ) (2023-03-31T10:13:01Z) - Membership Inference Attacks against Synthetic Data through Overfitting
Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。
生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文 参考訳(メタデータ) (2023-02-24T11:27:39Z) - Distributed sequential federated learning [0.0]
ローカルデータを解析することで,価値ある情報を効率的に効果的に集約するデータ駆動手法を開発した。
我々は、シミュレーションデータの数値的研究と、メキシコの32の病院から収集されたCOVID-19データへの応用を用いている。
論文 参考訳(メタデータ) (2023-01-31T21:20:45Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Differentially Private Multi-Party Data Release for Linear Regression [40.66319371232736]
Differentially Private (DP) データリリースは、データ対象のプライバシを損なうことなくデータを広める、有望なテクニックである。
本稿では、異なる利害関係者が同じデータ対象グループに属する不整合な属性セットを所有するマルチパーティ設定に焦点を当てる。
提案手法は,データセットサイズが増大する最適(プライベートでない)解に収束することを示す。
論文 参考訳(メタデータ) (2022-06-16T08:32:17Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Towards Fair Federated Learning with Zero-Shot Data Augmentation [123.37082242750866]
フェデレーション学習は重要な分散学習パラダイムとして登場し、サーバはクライアントデータにアクセスせずに、多くのクライアントがトレーニングしたモデルからグローバルモデルを集約する。
本稿では, 統計的不均一性を緩和し, フェデレートネットワークにおけるクライアント間での精度向上を図るために, ゼロショットデータ拡張を用いた新しいフェデレーション学習システムを提案する。
Fed-ZDAC (クライアントでのゼロショットデータ拡張によるフェデレーション学習) と Fed-ZDAS (サーバでのゼロショットデータ拡張によるフェデレーション学習) の2種類について検討する。
論文 参考訳(メタデータ) (2021-04-27T18:23:54Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - Private data sharing between decentralized users through the privGAN
architecture [1.3923892290096642]
本研究では、データ所有者が実際のデータを共有することなく、データの合成版や偽版を共有する方法を提案する。
このアプローチが、さまざまなサイズのサブセットに適用されると、実際のデータセットのユーティリティよりも、所有者の利便性が向上することを示す。
論文 参考訳(メタデータ) (2020-09-14T22:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。