論文の概要、ライセンス

# (参考訳) FedAUX: フェデレーション学習におけるラベルなし補助データを活用する [全文訳有]

FedAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning ( http://arxiv.org/abs/2102.02514v1 )

ライセンス: CC BY 4.0
Felix Sattler and Tim Korjakow and Roman Rischke and Wojciech Samek(参考訳) フェデレート蒸留(Federated Distillation, FD)は、フェデレートラーニング(Federated Learning)のための新しいアルゴリズムパラダイムであり、従来のパラメータ平均化手法と競合する訓練性能を実現すると同時に、未ラベルの補助的なデータセットのクライアント予測を学生モデルに蒸留することで、クライアントが異なるモデルアーキテクチャを訓練できるようにする。 本研究では,FedAUXを提案する。FedAUXはFDの拡張であり,同じ仮定の下で,ラベルのない補助データから最大ユーティリティを導出することにより,性能を大幅に向上する。 FedAUXは、FDトレーニング手順を2つの方法で修正する。まず、補助データに対する教師なし事前トレーニングを行い、分散トレーニングのモデル初期化を見つける。 第二に、$(\varepsilon, \delta)$-differentia lly private certainty scoringは、各クライアントモデルの確実性に応じて、補助データ上のアンサンブル予測を重み付けるために使用されます。 大規模畳み込みニューラルネットワークとトランスモデルに関する実験では、FedAUXのトレーニングパフォーマンスがIidと非iidの両方で相当なマージンでSOTA FLベースラインメソッドを超え、集中型トレーニングパフォーマンスへのギャップをさらに埋めることが実証された。 コードはgithub.com/fedl-repo /fedauxで入手できる。

Federated Distillation (FD) is a popular novel algorithmic paradigm for Federated Learning, which achieves training performance competitive to prior parameter averaging based methods, while additionally allowing the clients to train different model architectures, by distilling the client predictions on an unlabeled auxiliary set of data into a student model. In this work we propose FedAUX, an extension to FD, which, under the same set of assumptions, drastically improves performance by deriving maximum utility from the unlabeled auxiliary data. FedAUX modifies the FD training procedure in two ways: First, unsupervised pre-training on the auxiliary data is performed to find a model initialization for the distributed training. Second, $(\varepsilon, \delta)$-differentia lly private certainty scoring is used to weight the ensemble predictions on the auxiliary data according to the certainty of each client model. Experiments on large-scale convolutional neural networks and transformer models demonstrate, that the training performance of FedAUX exceeds SOTA FL baseline methods by a substantial margin in both the iid and non-iid regime, further closing the gap to centralized training performance. Code is available at github.com/fedl-repo /fedaux.
公開日: Thu, 4 Feb 2021 09:53:53 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Felix Sattler 1 Tim Korjakow 1 Roman Rischke 1 Wojciech Samek 1 Felix Sattler 1 Tim Korjakow 1 Roman Rischke 1 Wojciech Samek 1。 0.88
1 2 0 2 b e F 4 1 2 0 2 b e F 4 0.85
] G L . ] G L。 0.79
s c [ 1 v 4 1 5 2 0 sc [ 1 v 4 1 5 2 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Federated Distillation (FD) is a popular novel algorithmic paradigm for Federated Learning, which achieves training performance competitive to prior parameter averaging based methods, while additionally allowing the clients to train different model architectures, by distilling the client predictions on an unlabeled auxiliary set of data into a student model. 概要 フェデレート蒸留(Federated Distillation, FD)は、フェデレートラーニング(Federated Learning)のための新しいアルゴリズムパラダイムであり、従来のパラメータ平均化手法と競合する訓練性能を実現すると同時に、未ラベルの補助的なデータセットのクライアント予測を学生モデルに蒸留することで、クライアントが異なるモデルアーキテクチャを訓練できるようにする。 0.57
In this work we propose FEDAUX, an extension to FD, which, under the same set of assumptions, drastically improves performance by deriving maximum utility from the unlabeled auxiliary data. 本研究では、FDの拡張であるFEDAUXを提案する。これは、同じ仮定の下で、ラベルなし補助データから最大ユーティリティを導出することにより、性能を大幅に向上させる。 0.67
FEDAUX modifies the FD training procedure in two ways: First, unsupervised pre-training on the auxiliary data is performed to find a model initialization for the distributed training. FEDAUXは、FDトレーニング手順を2つの方法で修正する。まず、補助データに対する教師なし事前トレーニングを行い、分散トレーニングのモデル初期化を見つける。 0.67
Second, (ε, δ)-differentially private certainty scoring is used to weight the ensemble predictions on the auxiliary data according to the certainty of each client model. 第二に、(ε, δ)-differentially private certainty scoringは、各クライアントモデルの確実性に応じて、補助データ上のアンサンブル予測を重み付けるために使用されます。 0.72
Experiments on large-scale convolutional neural networks and transformer models demonstrate, that the training performance of FEDAUX exceeds SOTA FL baseline methods by a substantial margin in both the iid and non-iid regime, further closing the gap to centralized training performance. 大規模な畳み込みニューラルネットワークとトランスモデルに関する実験では、FEDAUXのトレーニング性能がiidと非iidの両方でかなりのマージンでSOTA FLベースライン方法を超え、さらに集中トレーニングパフォーマンスへのギャップを埋めることが示されています。 0.72
Code is available at github.com/fedl-repo /fedaux. コードはgithub.com/fedl-repo /fedauxで入手できる。 0.42
1. Introduction Federated Learning (FL) allows distributed entities (”clients”) to jointly train (deep) machine learning models on their combined data, without having to transfer this data to a centralized location (McMahan et al., 2017). 1. Federated Learning(FL)の導入により、分散エンティティ(「クライアント」)は、中央集権的な場所にデータを転送することなく、組み合わせたデータで機械学習モデルを共同トレーニング(深層)することができます(McMahan et al., 2017)。 0.83
The Federated training process is orchestrated by a central server. Federatedトレーニングプロセスは、中央サーバによってオーケストレーションされる。 0.80
The distributed nature of FL improves privacy (Li et al., FLの分散した性質はプライバシーを改善する(Li et al.)。 0.62
1Department HHI, Berlin, Germany. 1部門 HHI、ベルリン、ドイツ。 0.67
tler <felix.sattler@hhi.fr aunhofer.de>, Wojciech <wojciech.samek@hhi.f raunhofer.de>. tler <felix.sattler@hhi.fr aunhofer.de>, Wojciech <wojciech.samek@hhi.f raunhofer.de> 0.70
of Artificial Intelligence, Correspondence to: 人工的に インテリジェンス、それに対応する。 0.57
Fraunhofer Felix SatSamek フラウンホーファーFelix SatSamek。 0.59
This work was supported by the German Federal Ministry of Education and Research (BMBF) through the BIFOLD - Berlin Institute for the Foundations of Learning and Data (ref. この作業は、BIFOLD - Berlin Institute for the Foundations of Learning and Data (ref)を通じて、ドイツ連邦教育研究省(BMBF)によって支援されました。 0.83
01IS18025A and ref 01IS18037I). 01IS18025Aおよびref 01IS18037I)。 0.58
2019), ownership rights (Sheller et al., 2020) and security (Mothukuri et al., 2021) for the participants. 2019)、所有権(Sheller et al.、2020)、および参加者のためのセキュリティ(Mothukuri et al.、2021)。 0.78
As the number of mobile and IoT devices and their capacities to collect large amounts of high-quality and privacy-sensitive data steadily grows, Federated training procedures become increasingly relevant. モバイルおよびIoTデバイスの数と、高品質でプライバシーに敏感な大量のデータを収集する能力が着実に増加するにつれて、フェデレーショントレーニング手順はますます関連性を増しています。 0.63
While the client data in Federated Learning is typically assumed to be private, in most real-world applications the server additionally has access to unlabeled auxiliary data, which roughly matches the distribution of the client data. フェデレートラーニングのクライアントデータは一般にプライベートであると仮定されるが、ほとんどの現実世界のアプリケーションでは、サーバは未ラベルの補助データにアクセスでき、クライアントデータの分布とほぼ一致する。 0.76
For instance, for many Federated computer vision and natural language processing problems, such auxiliary data can be given in the form of public data bases such as ImageNet (Deng et al., 2009) or WikiText (Merity et al., 2016). 例えば、多くのフェデレートされたコンピュータビジョンや自然言語処理の問題に対して、これらの補助データは ImageNet (Deng et al., 2009) や WikiText (Merity et al., 2016) のような公開データベースの形で与えられる。 0.84
These data bases contain millions to billions of data samples but are typically lacking the necessary label information to be useful for training task-specific models. これらのデータベースには数百万から数十億のデータサンプルが含まれているが、通常、タスク固有のモデルのトレーニングに有用なラベル情報が欠落している。 0.58
Recently, Federated Distillation (FD), a novel algorithmic paradigm for Federated Learning problems where such auxiliary data is available, was proposed. 最近、そのような補助データが利用可能なフェデレーション学習問題のための新しいアルゴリズムパラダイムであるフェデレーション蒸留(FD)が提案された。 0.71
In contrast to classic parameter averaging based FL algorithms (McMahan et al., 2017; Mohri et al., 2019; Reddi et al., 2020; Li et al., 2020a; Sattler et al., 2020c), which require all client’s models to have the same size and structure, FD allows the clients to train heterogeneous model architectures, by distilling the client predictions on the auxiliary set of data into a student model. 従来のパラメータ平均化ベースのFLアルゴリズム(McMahan et al., 2017; Mohri et al., 2019; Reddi et al., 2020a; Li et al., 2020a; Sattler et al., 2020c)とは対照的に、FDでは、クライアントが学生モデルの補助的なデータセット上のクライアント予測を蒸留することで、異種モデルアーキテクチャをトレーニングすることができる。
訳抜け防止モード: 古典的なパラメータ平均化ベースのFLアルゴリズム(McMahan et al ., 2017 ; Mohri et al ., 2019 ; Reddi et al ., 2020 ; Li et al ., 2020a ; Sattler et al .)とは対照的である。 2020年)。 すべてのクライアントのモデルが同じサイズと構造を持つ必要があります。 FDはクライアントがヘテロジニアスモデルアーキテクチャをトレーニングすることを可能にする データの補助セットのクライアント予測を 学生モデルに蒸留すること。
0.84
This can be particularly beneficial in situations where clients are running on heterogeneous hardware. これは、クライアントが異種ハードウェアで実行されている状況で特に有益です。 0.65
Studies show that FD based training has favorable communication properties (Itahara et al., 2020; Sattler et al., 2020a), and can outperform parameter averaging based algorithms (Lin et al., 2020). 研究によると、FDベースのトレーニングは良好なコミュニケーション特性(Itahara et al., 2020; Sattler et al., 2020a)を持ち、パラメータ平均化アルゴリズム(Lin et al., 2020)より優れている。 0.78
However, just like for their parameter-averaging- based counterparts, the performance of FD based learning algorithms falls short of centralized training and deteriorates quickly if the training data is distributed in a heterogeneous (”non-iid”) way among the clients. しかし、パラメータベースのアルゴリズムと同様に、FDベースの学習アルゴリズムのパフォーマンスは集中型トレーニングに欠けており、トレーニングデータがクライアント間で異質な("非ID")方法で分散されている場合、急速に劣化する。 0.81
In this work we aim to further close this performance gap, by exploring the core assumption of FD based training and deriving maximum utility from the available unlabeled auxiliary data. 本研究は,fd ベーストレーニングの核となる前提を探究し,利用可能なラベルなし補助データから最大有効性を導出することにより,この性能ギャップをさらに縮めることを目的とする。 0.65
Our main contributions are as follows: 主な貢献は以下の通りです。 0.75
• We show that a wide range of (out-of-distribution ) • (配布外) の範囲が広いことを示します。 0.72
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Figure 1. Training procedure of FEDAUX. 図1。 FEDAUXのトレーニング手順。 0.71
Preparation phase: P1) The unlabeled auxiliary data is used to pre-train a feature extractor (e.g. 準備段階: P1) ラベルなしの補助データは、特徴抽出器(例えば)を事前に訓練するために使用される。 0.61
using contrastive representation learning). 対照的な表現学習を使って)。 0.58
P2) The feature-extractor is sent to the clients, where it is used to initialize the client models. p2) feature-extractorはクライアントに送信され、クライアントモデルを初期化するために使用される。 0.83
Based on extracted features, a logistic scoring head is trained to distinguish local client data from a subset of the auxiliary data. 抽出された特徴に基づいてロジスティックスコアリングヘッドを訓練し、補助データのサブセットとローカルクライアントデータを区別する。 0.77
P3) The trained scoring head is sanitized using a (ε, δ)-differentially private mechanism and then used to compute certainty scores on the distillation data. P3) トレーニングされたスコアリングヘッドは, (ε, δ)-差分的にプライベートな機構を用いて衛生処理を行い, 蒸留データに対する確実性スコアを計算する。 0.73
Training Phase: T1) In each communication round, a subset of the client population is selected for training. トレーニングフェーズ:T1)各コミュニケーションラウンドでは、クライアント人口のサブセットがトレーニングのために選択されます。 0.81
Each selected client downloads a model initialization from the server, and then updates the full model fi (feature extractor & scoring head) using their private local data. 選択されたクライアントは、サーバからモデル初期化をダウンロードし、プライベートなローカルデータを使用してモデルfi(feature extractor & scoring head)をアップデートする。 0.78
T2) The locally trained classifier and scoring models fi and si are sent to the server, where they are combined into a weighted ensemble. t2) ローカルに訓練された分類器とスコアリングモデルfiとsiをサーバに送信し、重み付けされたアンサンブルに結合する。 0.75
T3) Using the unlabeled auxiliary data and the weighted ensemble as a teacher, the server distills a student model which is used as the initialization point for the next round of Federated training. t3)無ラベル補助データと教師としての重み付けアンサンブルとを用いて、サーバは、次のフェデレーショントレーニングの初期化ポイントとして使用される学生モデルを蒸留する。 0.72
*Note that in practice we perform computation of soft-labels and scores at the server to save client resources. ※実際、私たちはクライアントリソースを保存するためにサーバでソフトラベルとスコアの計算を行います。 0.63
auxiliary data sets are suitable for self-supervised pretraining and can drastically improve FL performance across all baselines. 補助データセットは自己教師付き事前訓練に適しており、全てのベースラインでFL性能を大幅に改善することができる。 0.55
• We propose a novel certainty-weighted FD technique, that improves performance of FD on non-iid data substantially, addressing a long-standing problem in FL research. FL研究の長年の課題に対処し、非iidデータに対するFDの性能を大幅に向上させる新しい確実性重み付けFD技術を提案します。 0.71
• We propose an (ε, δ)-differentially private mechanism to constrain the privacy loss associated with transmitting certainty scores. • (ε, δ)-differentially private mechanism を提案し、確実性スコアの送信に伴うプライバシー損失を抑制する。 0.83
These performance improvements are possible a) under the same assumptions made in the FD literature, b) with only negligible additional computational overhead for the resource-constrained clients and c) with small quantifiable excess privacy loss. これらのパフォーマンスの改善は、a)FD文献で行ったのと同じ仮定の下で可能であり、b)リソース制限されたクライアントに対する無視可能な追加計算オーバーヘッドとc)小さな定量化可能な過剰プライバシー損失。
訳抜け防止モード: これらの性能改善は(a)FD文献と同じ仮定で可能である。 b) リソースの余分な計算オーバーヘッドのみを無視する - 制約のあるクライアント およびc) プライバシーの損失が少なかった。
0.78
2. Related Work Federated Distillation: Distillation (Bucila et al., 2006; Hinton et al., 2015) is a common technique to transfer the knowledge of one or multiple (You et al., 2017; Anil et al., 2018) machine learning classifiers to a different model, and is typically used in centralized settings before deployment in order to reduce the model complexity, while preserving predictive power. 2. 関連するワークフェデレート蒸留:蒸留(Bucila et al., 2006; Hinton et al., 2015)は、1つまたは複数の機械学習分類器(You et al., 2017; Anil et al., 2018)の知識を別のモデルに転送する一般的な技術であり、モデル複雑性を抑えるために配置前の集中的な設定で一般的に使用される。 0.82
To this end, the predictions of the teacher model(s) on a distillation data set are used to guide the training process of the potentially less complex student model. この目的のために、蒸留データセット上の教師モデル(s)の予測を用いて、潜在的により複雑な学生モデルの訓練プロセスを導出する。 0.78
Federated Distillation (FD) algorithms, which leverage these distillation techniques to aggregate the client knowledge, are recently gaining popularity, because they outperform conventional parameter averaging based FL methods (Lin et al., 2020; Chen & Chao, 2020) like FEDAVG or FedPROX (McMahan et al., 2017; Li et al., 2020a) and allow clients to train heterogeneous model architectures (Li & Wang, 2019; Chang et al., 2019; Li et al., 2021). FEDAVGやFedPROX(McMahan et al., 2017; Li et al., 2020a)のような従来のパラメータ平均ベースFLメソッド(Lin et al., 2020; Chen & Chao, 2020)を上回り、クライアントが異種モデルアーキテクチャ(Li & Wang, 2019; Chang et al., 2019; Li et al., 2021)を訓練できるようにするため、これらの蒸留技術を活用してクライアントの知識を集約するFD(Federated Distillation)アルゴリズムが最近人気を得ています。 0.91
FD methods can furthermore reduce communication overhead (Jeong et al., 2018; Itahara et al., 2020; Seo et al., 2020; Sattler et al., 2020a), by exploiting the fact that distillation requires only the communication of model predictions instead of full models. FD法は、完全なモデルではなくモデル予測のコミュニケーションのみを必要とするという事実を利用して、通信オーバーヘッドをさらに削減することができる(Jeong et al., 2018; Itahara et al., 2020; Seo et al., 2020; Sattler et al., 2020a)。 0.86
In contrast to centralized distillation, where training and distillation data usually coincide, FD makes no restrictions on the auxiliary distillation data1, making it widely applicable. 訓練および蒸留データが通常一致する集中蒸留とは対照的に、FDは補助蒸留データ1に制限をかけず、広く適用可能である。 0.76
Our work, is in line with (Lin et al., 2020; Chen & Chao, 2020) in that it aims to improve overall training performance in FL. 私たちの仕事は(Lin et al., 2020; Chen & Chao, 2020)、FLの全体的なトレーニングパフォーマンスを改善することを目的としています。 0.81
Both FEDDF (Lin et al., 2020) and FEDBE (Chen & Chao, 2020) combine parameter averaging as done in FedAVG (McMahan et al., 2017) with ensemble distillation to improve FL performance. FEDDF (Lin et al., 2020) と FEDBE (Chen & Chao, 2020) は、FEDAVG (McMahan et al., 2017) で実施されたパラメータ平均とアンサンブル蒸留を組み合わせてFL性能を向上させます。 0.83
While FEDDF combines client predictions by means of an (equally weighted) model ensemble, FEDBE forms a Bayesian ensemble from the client models for better robustness to heterogeneous data. FEDDFは(等しく重み付けされた)モデルアンサンブルによってクライアント予測を結合するが、FEDBEはクライアントモデルからベイズアンサンブルを形成し、不均一なデータに対する堅牢性を改善する。 0.69
Taking FEDDF as a starting point, we additionally leverage the auxiliary distillation data set for unsupervised pre-training FEDDFを出発点として、未指導の事前トレーニングのための補助蒸留データセットをさらに活用します。 0.60
1Recent work even suggests that useful distillation data can be generated from the teacher models themselves (Nayak et al., 2019). 1近年の研究は、教師モデル自体から有用な蒸留データを生成できることを示唆している(Nayak et al., 2019)。 0.75
All Clients Participating Clients Server Participating Clients All Clients ServerFeatureExtract orAuxiliaryData(Unla beled)FeatureExtract or(frozen)LogisticSc oringHeadNeg.DataLoc alDataLocalDataP1: UnsupervisedPretrain ingP2: TrainScoring ModelT1: TrainClassifierP3: Sanitize Scoring Modeland Compute ScoresLogisticScorin gHead(sanitized)Dist illDataScores(san. All Clients Participating Clients Server Participating Clients All Clients ServerFeatureExtract orAuxiliaryData(Unla beled)FeatureExtract or(frozen)LogisticSc oringHeadNeg.DataLoc alDataLocalDataP1: UnsupervisedPretrain ingP2: TrainScoring ModelT1: TrainClassifierP3: Sanitize Scoring Modeland Compute ScoresLogisticScorin gHead(sanitized)Dist illDataScores(san) 0.82
)Preparation Phase Training Phase (repeat for T rounds)DistillDataFe atureExtractor(froze n)FeatureExtractorCl assificationHeadDist illDataSoft-LabelsT2 : Compute Soft-labelsFeatureEx tractorClassificatio nHeadScores(san. )準備フェーズトレーニングフェーズ(Tラウンドの繰り返し)DistillDataFeatureE xtractor(凍結)FeatureExtractorCla ssificationHeadDisti llDataSoft-LabelsT2: Compute Soft-labelsFeatureEx tractorClassificatio nHeadScores(san。 0.34
)T3: WeightedEnsemble DistillationFeatureE xtractor(is trained)Classificati onHeadtraintraintrai ntrainevaleval...... subsetsubset T3: WeightedEnsemble DistillationFeatureE xtractor(is training)Classificat ionHeadtraintraintra inevaleval......subs etsubset 0.40
英語(論文から抽出)日本語訳スコア
and weight the client predictions in the distillation step according to their prediction certainty to better cope with settings where the client’s data generating distributions are statistically heterogeneous. そして、蒸留ステップにおけるクライアントの予測を、その予測の確実性に従って重み付けて、クライアントのデータ生成分布が統計的に異質な設定に対処します。 0.73
Weighted Ensembles: Weighted ensemble methods were studied already in classical work (Hashem & Schmeiser, 1993; Perrone & Cooper, 1993; Opitz & Maclin, 1999), with certainty weighted ensembles of neural networks in particular being proposed for classification e.g. 重み付けアンサンブル:重み付けアンサンブル法は既に古典的研究(hashem & schmeiser, 1993; perrone & cooper, 1993; opitz & maclin, 1999)で研究されており、特にニューラルネットワークの重み付けアンサンブルは分類のために提案されている。 0.63
in (Jim´enez, 1998). in (Jim ́enez, 1998) 0.88
Mixture of experts and boosting methods (Yuksel et al., 2012; Masoudnia & Ebrahimpour, 2014; Schapire, 1999) where multiple simple classifiers are combined by weighted averaging are frequently used in centralized settings. 複数の単純な分類器が重み付け平均によって結合される専門家とブースト方法(Yuksel et al., 2012; Masoudnia & Ebrahimpour, 2014; Schapire, 1999)は、集中的な設定で頻繁に使用されます。 0.77
A more detailed discussion of related work can be found in Appendix A. 関連する作業に関するより詳細な議論は、Appendix Aで見ることができる。 0.68
3. Federated Learning with Auxiliary Data In this section, we describe our method for efficient Federated Learning in the presence of unlabeled auxiliary data (FEDAUX). 3. 本稿では,補助データを用いたフェデレーション学習について,ラベルなし補助データ(fedaux)を用いて効率的なフェデレーション学習を行う手法について述べる。 0.77
An illustration of our proposed approach is given in Figure 1. 提案したアプローチの例を図1に示します。 0.75
We describe FEDAUX for the homogeneous setting were all clients hold the same model prototype. 均質な設定のfedoは、すべてのクライアントが同じモデルのプロトタイプを持っていることです。 0.56
The detailed algorithm for the more general modelheterogeneous setting can be found in Appendix C. An exhaustive qualitative comparison between FEDAUX and baseline methods is given in Appendix D. より一般的なモデル異種設定のための詳細なアルゴリズムは付録Cで見つけることができます。FEDAUXとベースライン方法の間の徹底的な定性的な比較は付録Dで与えられます。 0.61
3.1. Problem Setting ((cid:83) 3.1. 問題設定 (cid:83) 0.76
We assume the conventional FL setting where a population of n clients is holding potentially non-iid subsets of private labeled data D1, .., Dn, from a training data distribution i≤n Di) ∼ ϕ(X ,Y). n のクライアントの集団がプライベートラベル付きデータ d1, ., dn の潜在的な非iidサブセットをトレーニングデータ分布 iψn di) から保持している従来の fl 設定を仮定する。 0.71
We further make the assumption that the server and the clients both have access to a public collection of unlabeled auxiliary data from a deviating distribution Daux ∼ ψ(X ). さらに、サーバとクライアントの両方が、逸脱した分布Daux > > (X ) からラベルなしの補助データの公開コレクションにアクセス可能であるという仮定を立てる。 0.70
The latter assumption is common to all studies on FD. 後者の仮定はfdに関する全ての研究に共通である。 0.72
One round of federated training is then performed as follows: A subset St of the client population is selected by the server and downloads a model initialization. クライアント集団のサブセット St がサーバによって選択され、モデルの初期化がダウンロードされる。
訳抜け防止モード: 1ラウンドの連帯訓練は次のとおり行われる。 :クライアント人口のサブセットstはサーバによって選択され、モデル初期化をダウンロードする。
0.79
Starting from this model initialization, each client then proceeds to train a model fi on it’s local private data Di by taking multiple steps of stochastic gradient descent. このモデルの初期化から始めて、各クライアントは、確率勾配降下の複数のステップを踏むことで、ローカルなプライベートデータDiでモデルfiをトレーニングする。 0.70
We assume that these local models can be decomposed into a feature extractor hi and a classification head gi according to fi = gi ◦ hi. 特徴抽出器hiと分類ヘッドgiとに fi = gi ^ hi に従ってこれらの局所モデルを分解することができると仮定する。 0.75
Finally, the updated models fi, i ∈ St are sent back to the server, where they are aggregated to form a new server model f, which is used as the initialization point for the next round of FL. 最後に、更新されたモデル fi, i ∈ St はサーバに返送され、集約されて新しいサーバモデル f を形成し、FL の次のラウンドの初期化ポイントとして使用される。 0.76
The goal of FL is to obtain a server model f, which optimally generalizes to new samples from the training data distribution ϕ, within a minimum number of FLの目標は、トレーニングデータ分布φの新しいサンプルに最適に一般化するサーバーモデルfを、最小限の数で取得することである。 0.85
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning communication rounds t ≤ T . FEDAUX:Federated Learningコミュニケーションラウンドのラベルなし補助データを活用するt ≤ T。 0.80
3.2. Federated Ensemble Distillation 3.2. Federated Ensemble 蒸留 0.73
Federated Ensemble Distillation is a novel method for aggregating the knowledge of FL clients. Federated Ensemble Distillationは、FLクライアントの知識を集約するための新しい方法です。 0.76
Instead of aggregating the parameters of the client models (e.g. クライアントモデルのパラメータを集約する代わりに(例えば)。 0.81
via an averaging operation), a student model is trained on the combined predictions of the clients on some public auxiliary data. 平均演算により、学生モデルは、いくつかの公共補助データ上でクライアントの複合予測に基づいて訓練される。 0.78
Let x ∈ Daux be a batch of data from the auxiliary distillation data set. x ∈ Daux を補助蒸留データセットからのデータのバッチとする。 0.69
Then one iteration of student distillation is performed as θt,j+1 ← θt,j − η その後、留学生蒸留の1つの反復がθt,j+1 > θt,j − ηとして実行される。 0.54
∂DKL(A({fi(x)|i ∈ St}), σ(f (x, θt,j))) ∂DKL(A({fi(x)|i ∈ St}), σ(f(x, θt,j)) 0.84
∂θt,j . (1) ∂θt,j . (1) 0.83
Hereby, DKL denotes the Kullback-Leibler divergence, η > 0 is the learning rate, σ is the softmax-function and A is a mechanism to aggregate the soft-labels. ここで、DKLはクルバック・リーブラー分岐を表し、η > 0 は学習率、σ はソフトマックス関数、A はソフトラベルを集約するメカニズムである。 0.62
Existing work (Lin et al., 2020) aggregates the client predictions by taking the mean according to 既存の作業(lin et al., 2020)は、平均を取ることでクライアントの予測を集約する 0.83
(cid:18)(cid:80) (cid:18)(cid:80) 0.75
(cid:19) Amean({fi(x)|i ∈ St}) = σ (cid:19) Amean({fi(x)|i ∈ St}) = σ 0.85
fi(x) i∈St |St| fi(x) 伊東St |St| 0.65
. (2) Federated Ensemble Distillation is shown to outperform parameter averaging based techniques (Lin et al., 2020). . (2) Federated Ensemble Distillation is showed outperform parameter averaging based techniques (Lin et al., 2020)。 0.81
3.3. Self-supervised Pre-training 3.3. セルフ・スーパーバイスド・プレトレーニング 0.58
Self-supervised representation learning can leverage large records of unlabeled data to create models which extract meaningful features. 自己教師付き表現学習は、ラベルなしデータの大量の記録を利用して意味のある特徴を抽出するモデルを作成することができる。
訳抜け防止モード: 教師なし表現学習はラベルなしデータの巨大なレコードを活用できる 有意義な特徴を抽出するモデルを作成する。
0.63
For the two types of data considered in this study - image and sequence data - strong self-supervised training algorithms are known in the form of contrastive representation learning (Chen et al., 2020; Wang & Isola, 2020) and next-token prediction (Devlin et al., 2019; Radford et al., 2019). 画像データとシーケンスデータという2種類のデータについて、強力な自己教師型トレーニングアルゴリズムは、コントラスト表現学習(Chen et al., 2020; Wang & Isola, 2020)と次世代予測(Devlin et al., 2019; Radford et al., 2019)の形式で知られている。 0.79
As part of the FEDAUX preparation phase (cf. フェドー準備段階(cf。 0.42
Fig. 1, P1) we propose to perform self-supervised training on the auxiliary data Daux at the server. フィギュア。 1)P1では,サーバにおける補助データDauxの自己教師型トレーニングを行う。 0.59
We emphasize that this step makes no assumptions on the similarity between the local training data and the auxiliary data. このステップは,ローカルトレーニングデータと補助データとの類似性を仮定していないことを強調する。 0.85
This results in a parametrization for the feature extractor h0. これにより特徴抽出器h0がパラメトリゼーションされる。 0.76
Since the training is performed at the server, using publicly available data, this step inflicts neither computational overhead nor privacy loss on the resource-constrained clients. トレーニングは、公開データを使用してサーバで実行されるため、このステップは、計算オーバーヘッドやリソース制約のあるクライアントのプライバシ損失に影響を与えない。 0.65
3.4. Weighted Ensemble Distillation 3.4. 重み付きアンサンブル蒸留 0.64
Different studies have shown that both the training speed, stability and maximum achievable accuracy in existing FL algorithms deteriorate if the training data is distributed in a heterogeneous ”non-iid” way among the clients (Zhao et al., 2018; Sattler et al., 2020c; Li et al., 2020b). 異なる研究では、既存のFLアルゴリズムのトレーニング速度、安定性、最大達成可能な精度の両方が、トレーニングデータがクライアント間で不均一な"非iid"方法で分散されている場合、劣化することが示されている(Zhao et al., 2018; Sattler et al., 2020c; Li et al., 2020b)。 0.68
Federated Ensemble Distillation makes no exception to this rule (Lin et al., 2020). Federated Ensemble Distillationはこの規則(Lin et al., 2020)に例外はありません。 0.91
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Figure 2. Weighted Ensemble Distillation illustrated in a toy example on the Iris data set (data points are projected to their two principal components). 図2。 irisデータセットのトイ例で示される重み付きアンサンブル蒸留(データポイントは2つの主要なコンポーネントに投影される)。 0.74
Three Federated Learning clients hold disjoint non-iid subsets of the training data. 3つのフェデレートラーニングクライアントは、トレーニングデータの非IDサブセットを保持します。 0.62
Panels 1-3: Predictions made by linear classifiers trained on the data of each client. パネル1-3:各クライアントのデータに基づいてトレーニングされた線形分類器による予測。 0.74
Labels and predictions are color-coded, client certainty (measured via Gaussian KDE) is visualized via the alpha-channel. ラベルと予測はカラーコードされ、クライアントの確実性(ガウスKDEで測定)はアルファチャネルを介して可視化される。 0.63
The mean of client predictions (panel 4) only poorly captures the distribution of training data. クライアント予測の平均(panel 4)は、トレーニングデータの分布を十分に捉えていない。 0.82
In contrast, the certainty-weighted mean of client predictions (panel 5) achieves much higher accuracy. 対照的に、クライアント予測の確実度重み付け平均(panel 5)は、はるかに高い精度を達成する。 0.67
The underlying problem of combining hypotheses derived from different source domains has been explored in multiplesource domain adaptation theory (Mansour et al., 2008; Hoffman et al., 2018), which shows that standard convex combinations of the hypotheses of the clients as done in (Lin et al., 2020) may perform poorly on the target domain. 異なるソースドメインから派生した仮説を組み合わせるという根本的な問題は、マルチソースドメイン適応理論(Mansour et al., 2008; Hoffman et al., 2018)において検討されており、これは、クライアントの仮説の標準的な凸結合が、ターゲットドメイン上では不十分であることを示している(Lin et al., 2020)。 0.64
Instead, a distribution-weighte d combination of the local hypotheses is shown to be robust (Mansour et al., 2008; Hoffman et al., 2018). 代わりに、局所仮説の分布重み付けの組み合わせは堅牢であることが示されている(Mansour et al., 2008; Hoffman et al., 2018)。 0.78
A simple toy example, displayed in Figure 2, further illustrates this point. 図2に示すシンプルなおもちゃの例は、さらにこの点を示しています。 0.75
Inspired by these results, we propose to modify the aggregation rule of FD (2) to a certainty-weighted average: As({(fi(x), si(x))|i ∈ St}) = σ これらの結果に触発されて、FD (2) の集約規則を一定の重み付き平均に修正することを提案する: As({(fi(x), si(x))|i ∈ St}) = σ。 0.86
(cid:32)(cid:80) (cid:32)(cid:80) 0.75
si(x)fi(x) si(x)fi(x) 0.85
(cid:33) (cid:80) (cid:33) (cid:80) 0.78
i∈St i∈St si(x) i∈St i∈St si(x) 0.68
(3) The question remains, how to calculate the certainty scores si(x) in a privacy preserving way and for arbitrary highdimensional data, where simple methods, such as Gaussian KDE used in our toy example, fall victim to the curse of dimensionality. (3) プライバシ保護方法と任意の高次元データに対して,如何なる確実性スコア si(x) を計算するかという質問が残っており, おもちゃの例で用いたガウスKDEのような単純な手法は, 次元の呪いの犠牲となる。 0.77
To this end, we propose the following methodology: We split the available auxiliary data randomly into two disjoint subsets, D− ∪ Ddistill = Daux, the ”negative” data and the ”distillation” data. この目的のために,我々は,利用可能な補助データをランダムに2つの非連結部分集合,d−,ddistill = daux,「負」データ,および「蒸留」データに分割する手法を提案する。 0.78
Using the pre-trained model h0 (→ sec. 予め訓練されたモデルh0 (→ sec。 0.68
3.3) as a feature extractor, on each client, we then train a logistic regression classifier to separate the local data Di from the negatives D−, by optimizing the following regularized empirical risk minimization problem 3.3) 特徴抽出器として各クライアントで局所データdiと負データd−を分離するためにロジスティック回帰分類器を訓練し、以下の正規化経験的リスク最小化問題を最適化する。 0.75
w∗ i = arg min w w∗ i = arg min w 0.97
J(w, h0, Di, D−) J(w, h0, Di, D−) 1.00
(4) with J(w, h0, Di, D−) =a (4) J(w, h0, Di, D−) =a 0.86
(cid:88) x∈Di∪D− (cid:88) x∈DioD− 0.61
l(tx(cid:104)w, ˜h0(x)(cid:105)) + λR(w). l(tx(cid:104)w, yh0(x)(cid:105)) + λR(w)。 0.88
(5) Hereby tx = 2(1x∈Di) − 1 ∈ [−1, 1] defines the binary labels of the separation task, a = (|Di|+|D−|)−1 is a normalizing factor and ˜h0(x) = h0(x)(maxx∈Di∪D− (cid:107)h0(x)(cid:1 07))−1 (5) tx = 2(1x)Di) − 1 ∈ [−1, 1] では、分離タスクのバイナリラベルが定義され、a = (|Di|+|D−|)−1 は正規化因子となり、h0(x) = h0(x)(maxx)Di\D− (cid:107)h0(x)(cid:1 07))−1 となる。
訳抜け防止モード: (5 ) ここで tx = 2(1x∈Di ) − 1 ∈ [ −1, 1 ] は分離タスクのバイナリラベル a = () を定義します。 |Di|+|D−|)−1 は正規化因子である cid:107)h0(x)(cid:10 7)−1
0.89
2(cid:107)w(cid:107) 2 2(cid:107)w(cid:107) 2 0.84
are the normalized features. 正常化された特徴です 0.70
We choose l(z) = log(1 + exp(z)) to be the logistic loss and R(w) = 1 2 to be the (cid:96)2-regularize r. l(z) = log(1 + exp(z)) をロジスティック損失とし、R(w) = 1 2 を (cid:96)2-正則化器とする。 0.74
Since J is λ-strongly convex in w, problem (4) is uniquely solvable. J は w の λ-strongly convex であるため、問題 (4) は一意に可解である。 0.65
This step is performed only once on every client, during the preparation phase (cf. このステップは、準備フェーズ(cf)の間、各クライアントで1回だけ実行される。 0.72
Fig. 1, P2) and the computational overhead for the clients of solving (4) is negligible in comparison to the cost of multiple rounds of training the (deep) model fi. フィギュア。 1、P2)および(4)の解決の顧客のための計算オーバーヘッドは(深い)モデルfiを訓練する複数の円形の費用と比較すると無視可能です。 0.58
Given the solution of the regularized ERM w∗ i , the certainty scores on the distillation data Ddistill can be obtained via 正規化ERM w∗ iの解が与えられた場合、蒸留データDdistillの確実性スコアを得ることができる。 0.74
si(x) = (1 + exp(−(cid:104)w∗ si(x) = (1 + exp(−(cid:104)w∗ 0.99
i , ˜h0(x)(cid:105)))−1 + ξ. i , h0(x)(cid:105))−1 + y。 0.89
(6) A small additive ξ > 0 ensures numerical stability when taking the weighted mean in (3) (we set ξ = 1e − 8). (6) 小さい加法 > 0 は (3) の重み付き平均を取るときの数値安定性を保証している(ここでは > = 1e − 8 とする)。 0.77
In Appendix I, we provide further empirical results, suggesting that our certainty-weighted averaging method (3) approximates a robust aggregation rule proposed in (Mansour et al., 2008). 付録Iでは、さらに実証的な結果を提供し、私たちの確実度重み付け平均法(3)は(Mansour et al., 2008)提案された堅牢な集計規則を近似することを示唆している。 0.66
3.5. Privacy Analysis Sharing the certainty scores {si(x)|x ∈ Ddistill} with the central server intuitively causes privacy loss for the clients. 3.5. プライバシー分析 確実性スコア {si(x)|x ∈ Ddistill} を中央サーバーと共有すると、クライアントのプライバシー損失が直感的に発生します。 0.69
After all, a high score si(x) indicates, that the public data point x ∈ Ddistill is similar to the private data Di of client i (in the sense of (4)). 結局のところ、高スコア si(x) は、パブリックデータ点 x ∈ Ddistill がクライアント i のプライベートデータ Di に類似していることを示す((4) の意味で)。 0.68
To protect the privacy of the clients, quantify and limit the privacy loss, we propose to use datalevel differential privacy (cf. クライアントのプライバシを保護し、プライバシ損失を定量化し、制限するために、データレベル差分プライバシ(cf.datalevel differential privacy)の使用を提案する。 0.54
Fig. 1, P3). フィギュア。 1、P3)。 0.62
Following the classic definition of (Dwork & Roth, 2014), a randomized mechanism is called differentially private, if it’s output on any input data base d is indistinguishable from output on any neighboring database d(cid:48) which differs from d in one element. 古典的な定義(Dwork & Roth, 2014)に従い、ランダム化されたメカニズムは、任意の入力データベースdの出力が、ある要素のdと異なる隣接するデータベースd(cid:48)の出力と区別できない場合、微分プライベートと呼ばれる。 0.75
Definition 1. A randomized mechanism M : D → R satisfies (ε, δ)-differential privacy if for any two adjacent inputs d and d(cid:48) that differ in only one element and for any subset of outputs S ⊆ R, it holds that 定義1。 ランダム化機構 M : D → R が (ε, δ)-微分プライバシーを満たすのは、隣接する任意の2つの入力 d と d(cid:48) に対して、1つの要素と出力の任意の部分集合 S > R に対して異なる場合である。
訳抜け防止モード: 定義1。 ランダム化機構 M : D → R は (ε,) を満たす δ) 隣接する2つの入力 d と d(cid:48 ) に対して、差分プライバシー 1つの要素と出力の任意の部分集合についてのみ異なる。 それは
0.80
P [M(d) ∈ S] ≤ exp(ε)P [M(d(cid:48)) ∈ S] + δ. P [M(d) ∈ S] ≤ exp(ε)P [M(d(cid:48)) ∈ S] + δ。 0.89
(7) Client 1 Prediction/ WeightClient 2 Prediction/ WeightClient 3 Prediction/ WeightAccuracy = 0.33Mean PredictionAccuracy = 0.88Weighted Mean Prediction (7) Client 1 Prediction/WeightCli ent 2 Prediction/WeightCli ent 3 Prediction/WeightAcc uracy = 0.33Mean PredictionAccuracy = 0.88Weighted Mean Prediction 0.82
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Differential privacy of a mechanism M can be achieved, by limiting it’s sensitivity メカニズムmの差分プライバシは、感度を制限することで達成できる 0.68
∆(M) = max m) = max である。 0.73
d1,d2∈D (cid:107)M(d1) − M(d2)(cid:107) d1,d2∈D (cid:107)M(d1) − M(d2) (cid:107) 0.77
(8) and then applying a randomized noise mechanism. (8) ランダム化ノイズメカニズムを適用します 0.72
We adapt a Theorem from (Chaudhuri et al., 2011) to establish the sensitivity of (4): Theorem 1. 我々は (4): Theorem 1 の感度を確立するために (Chaudhuri et al., 2011) の定理を適用する。 0.89
If R(·) is differentiable and 1-strongly convex and l is differentiable with |l(cid:48)(z)| ≤ 1 ∀z, then the (cid:96)2sensitivity ∆2(M) of the mechanism r(·) が微分可能で、1-強凸かつ l が |l(cid:48)(z)| ≤ 1 で微分可能であれば、その機構の (cid:96)2 の感性は 2(m) である。 0.68
M : Di (cid:55)→ arg min M : Di (cid:55)→ arg min 0.98
w J(f, h0, Di, D−) W J(f, h0, Di, D−) 0.85
(9) is at most 2(λ(|Di| + |D−|))−1. (9) 最大 2(λ(|Di| + |D−|))−1 である。 0.81
The proof can be found in Appendix J. 証明は Appendix J で見ることができる。 0.75
As we can see the sensitivity scales inversely with the size of the total data |Di| + |D−|. このように、感度は総データ |di| + |d−| の大きさと逆スケールする。 0.72
From Theorem 1 and application of the Gaussian mechanism (Dwork & Roth, 2014) it follows that the randomized mechanism 理論1とガウス機構の適用(Dwork & Roth, 2014)から、ランダム化されたメカニズムが続く。 0.77
Msan : Di (cid:55)→ arg min Msan : Di (cid:55)→ arg min 0.98
f J(f, h0, Di, D−) + N f J(f, h0, Di, D−) + N 0.92
(10) 8 ln(1.25δ−1) (10) 8 ln(1.25δ−1) 0.75
ε2λ2(|Di|+|Daux|)2 is (ε, δ)- ε2λ2(|Di|+|Daux|)2 は (ε, δ)- 0.69
with N ∼ N (0, Iσ2) and σ2 = differentially private. N > N (0, Iσ2) と σ2 = 微分プライベートである。 0.80
The post-processing property of DP ensures that the release of any number of scores computed using the output of mechanism Msan is still (ε, δ)-private. DPのポストプロセッシング特性は、メカニズムMsanの出力を使用して計算されたスコアの任意の数のリリースがまだ(ε、δ)-プライベートであることを保証します。 0.68
Note, that in this work we restrict ourselves to the privacy analysis of the scoring mechanism. この作業では、スコアリングメカニズムのプライバシー分析に制限を加えることに注意してください。 0.70
The differentially private training of deep classifiers fi is a challenge in it’s own right and has been addressed e.g. 深層分類器 fi の微分的プライベートトレーニングは、それ自身の権利における課題であり、例えば対処されている。
訳抜け防止モード: 深層分類器fiの差分プライベートトレーニングは、それ自身の権利における課題である e.g.に宛てられました
0.71
in (Abadi et al., 2016). in (Abadi et al., 2016)。 0.80
Following the basic composition theorem (Dwork & Roth, 2014), the total privacy cost of running FEDAUX is the sum of the privacy loss of the scoring mechanism Msan and the privacy loss of communicating the updated models fi (the latter is the same for all FL algorithms). 基本構成定理(Dwork & Roth, 2014)に従って、FEDAUXを実行する際のプライバシーコストは、スコアリング機構Msanのプライバシー損失と更新されたモデルfiを通信するプライバシー損失の合計である(後者はすべてのFLアルゴリズムで同じ)。 0.66
4. Experiments 4.1. Setup Datasets and Models: We evaluate FEDAUX and SOTA FL methods on both Federated image and text classification problems with large scale convolutional and transformer models respectively. 4. 実験4.1。 データセットとモデルの設定: FEDAUX法とSOTA FL法を大規模畳み込みモデルとトランスモデルの両方でフェデレーション画像とテキスト分類問題について評価します。 0.78
For our image classification problems we train ResNet- (He et al., 2016), MobileNet- (Sandler et al., 2018) and ShuffleNet- (Zhang et al., 2018) type models on CIFAR-10 and CIFAR-100 and use STL-10, CIFAR-100 and SVHN as well as different subsets of ImageNet (Mammals, Birds, Dogs, Devices, Invertebrates, Structures)2 as auxiliary data. 画像分類問題に関しては,CIFAR-10およびCIFAR-100上でのResNet-(He et al., 2016), MobileNet-(Sandler et al., 2018), ShuffleNet-(Zhang et al., 2018)型モデルをトレーニングし,STL-10, CIFAR-100, SVHNおよびImageNet(Mammals, Birds, Dogs, Devices, Invertebrates, Structures)2を補助データとして使用する。 0.91
In our experiments, we 2The methodology for generating these subsets is described in 私たちの実験では 2 これらの部分集合を生成する方法論を述べる。 0.74
Appendix F Appendix F 0.85
always use 80% of the auxiliary data as distillation data Ddistill and 20% as negative data D−. 補助データの80%を蒸留データDdistill、20%を負のデータD−として常に使用する。 0.81
For our text classification problems we train Tiny-Bert (Jiao et al., 2020) on the AG-NEWS (Zhang et al., 2015) and Multilingual Amazon Reviews Corpus (Keung et al., 2020) and use BookCorpus (Zhu et al., 2015) as auxiliary data. テキスト分類問題では、AG-NEWS(Zhang et al., 2015)とMultilingual Amazon Reviews Corpus(Keung et al., 2020)でTiny-Bert(Jiao et al., 2020)をトレーニングし、補助データとしてBookCorpus(Zhu et al., 2015)を使用します。 0.88
Federated Learning environment and Data Partitioning: We consider Federated Learning problems with up to n = 100 participating clients. フェデレーション学習環境とデータ分割: フェデレーション学習の問題を最大n = 100の参加クライアントで考慮します。 0.74
In all experiments, we split the training data evenly among the clients according to a dirichlet distribution following the procedure outlined in (Hsu et al., 2019) and illustrated in Fig. すべての実験では、(Hsu et al., 2019)で概説された手順に従い、ディリクレ分布に従って、トレーニングデータをクライアント間で均等に分割し、図に示します。 0.66
6. This allows us to smoothly adapt the level of non-iid-ness in the client data using the dirichlet parameter α. 6. これにより、dirichletパラメータαを使ってクライアントデータの非iid性レベルをスムーズに適応できる。 0.82
We experiment with values for α varying between 100.0 and 0.01. α の値は 100.0 から 0.01 まで様々である。 0.74
A value of α = 100.0 results in an almost identical label distribution, while setting α = 0.01 results in a split, where the vast majority of data on every client stems from one single class. α = 100.0 の値はほぼ同一のラベル分布となり、α = 0.01 を設定すると分割され、各クライアントのデータの大部分は1つのクラスから来ている。 0.88
See Appendix B for a more detailed description of our data splitting procedure. データ分割手順の詳細については、Appendix Bを参照してください。 0.77
We vary the client participation rate C in every round between 20% and 100%. クライアントの参加率Cは、各ラウンドで20%から100%に変化します。 0.75
Pre-training strategy: For our image classification problems, we use contrastive representation learning as described in (Chen et al., 2020) for pre-training. 事前学習戦略: 画像分類問題に対して, 事前学習には(Chen et al., 2020) に記述されたコントラスト表現学習を用いる。 0.76
We use the default set of data augmentations proposed in the paper and train with the Adam optimizer, learning rate set to 10−3 and a batch-size of 512. 論文で提案されているデフォルトのデータ拡張セットを使用し、adamオプティマイザでトレーニングし、学習レートを10−3、バッチサイズを512に設定した。 0.59
For our text classification problems, we pre-train using self-supervised next-word prediction. テキスト分類問題については,自己教師付き次単語予測を用いて事前学習を行う。 0.48
Training the Scoring model and Privacy Setting: We set the default privacy parameters to λ = 0.1, ε = 0.1 and δ = 1e − 5 respectively and solve (4) by running L-BFGS (Liu & Nocedal, 1989) until convergence (≤ 1000 steps). Scoring モデルとプライバシー設定のトレーニング: デフォルトのプライバシーパラメータをそれぞれ λ = 0.1, ε = 0.1, δ = 1e − 5 に設定し、L-BFGS (Liu & Nocedal, 1989) を実行して収束 (≤ 1000 ステップ) まで解決します。 0.86
Baselines: We compare the performance of FEDAUX to state-of-the-art FL methods: FEDAVG (McMahan et al., 2017), FEDPROX (Li et al., 2020a), Federated Ensemble Distillation (FEDDF) (Lin et al., 2020) and FEDBE (Chen & Chao, 2020). Baselines: FEDAVG (McMahan et al., 2017)、FEDPROX (Li et al., 2020a)、Federated Ensemble Distillation (FEDDF) (Lin et al., 2020)、およびFEDBE (Chen & Chao, 2020)。
訳抜け防止モード: Baselines : FEDAUXのパフォーマンスをState - of - the - art FL method : FEDAVG (McMahan et al., 2017)と比較します。 FEDPROX (Li et al ., 2020a), Federated Ensemble Distillation (FEDDF ) ( Lin et al ., 2020 ) そしてFEDBE (チェン及びChao、2020年)。
0.91
To clearly discern the performance benefits of the two components of FEDAUX (unsupervised pre-training and weighted ensemble distillation), we also report performance metrics on versions of these methods where the auxiliary data was used to pre-train the feature extractor h (”FEDAVG+P”, ”FEDPROX+P”, ”FEDDF+P” resp. FEDAUX (unsupervised pre-training and weighted ensemble distillation) の2つのコンポーネントの性能特性を明らかにするため, 補助データを用いて特徴抽出器h("FEDAVG+P", "FEDPROX+P", "FEDDF+P" resp) を事前学習する方式の性能指標についても報告する。 0.88
”FEDBE+P”). とFEDBE+P)。 0.76
For FEDBE we set the sample size to 10 as suggested in the paper. FEDBEでは,本論文で提案したサンプルサイズを10に設定した。 0.74
For FEDPROX we always tune the proximal parameter µ. Optimization: On all image classification task, we use the very popular Adam optimizer (Kingma & Ba, 2014), with a fixed learning rate of η = 10−3 and a batch-size of 32 for local training. すべての画像分類タスクでは、非常に人気のあるadamオプティマイザ(kingma & ba, 2014)を使用し、η = 10−3の固定学習レートと32のバッチサイズをローカルトレーニングに使用します。
訳抜け防止モード: fedproxでは、常に近距離パラメータμをチューニングします。 infoq: すべての画像分類タスクでは,adam optimizer (kingma & ba, 2014) を使っています。 一定の学習速度はη = 10−3、バッチサイズは32である。
0.74
Distillation is performed for one epoch for all methods using Adam at a batch-size of 128 and fixed learning rate of 5e − 5. 128のバッチサイズと5e − 5の固定学習率でadamを使用するすべての方法に対して1エポックごとに蒸留を行う。 0.66
More detailed hyperparameter anal- より詳細なハイパーパラメータアナル 0.67
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Figure 3. Evaluation on different neural networks and client population sizes n. Accuracy achieved after T = 100 communication rounds by different Federated Distillation methods at different levels of data heterogeneity α. STL-10 is used as auxiliary data set. 図3。 T = 100の通信ラウンドで達成した,異なるレベルのデータヘテロジニティαのフェデレート蒸留法による精度の評価。STL-10は補助的データセットとして使用される。 0.72
In the ”Mixed” setting one third of the client population each trains on ResNet8, MobileNetv2 and Shufflenet respectively. ミックス」では、クライアント人口の3分の1をそれぞれResNet8、MobileNetv2、Shufflenetで設定します。 0.76
Black dashed line indicates centralized training performance. 黒い破断線は集中訓練性能を示す。 0.77
Figure 4. Evaluating FEDAUX on NLP Benchmarks. 図4。 NLPベンチマークによるFEDAUXの評価 0.74
Performance of FEDAUX for different combinations of local datasets and heterogenity levels α. 局所データセットと異種度レベルαの異なる組み合わせに対するFEDAUXの性能 0.82
10 clients training TinyBERT at α = 0.01 and C = 100%. 10クライアントがα = 0.01、c = 100%でtinybertをトレーニングする。 0.67
Bookcorpus is used as auxiliary data set. bookcorpusは補助データセットとして使用される。 0.70
Black dashed line indicates centralized training performance. 黒い破断線は集中訓練性能を示す。 0.77
Figure 5. Privacy Analysis. 図5。 プライバシー分析。 0.71
Performance of FEDAUX for different combinations of the privacy parameters ε, δ and λ. プライバシーパラメータε, δ, λの異なる組み合わせに対するフェドーの性能。 0.71
40 clients training Resnet-8 for T = 10 rounds on CIFAR-10 at α = 0.01 and C = 40%. 40クライアントは、α = 0.01でCIFAR-10でT = 10ラウンドのためのResnet-8を訓練し、C = 40%。 0.70
STL-10 is used as auxiliary data set. STL-10は補助データセットとして使用される。 0.64
ysis in Appendix H shows that this choice of optimization parameters is approximately optimal for all of the methods. Appendix Hのysisは、最適化パラメータの選択がすべてのメソッドに対してほぼ最適であることを示している。 0.70
If not stated otherwise, the number of local epochs E is set to 1. 別段の定めがない場合、局所エポック E の数は 1 に設定される。 0.73
4.2. Evaluating FEDAUX on common Federated 4.2. 共通のフェデレーションによるFEDAUXの評価 0.64
Learning Benchmarks We start out by evaluating the performance of FEDAUX on classic benchmarks for Federated image classification. ベンチマークの学習 フェデレーション画像分類のための古典的ベンチマークにおいて、FEDAUXの性能を評価することから始める。
訳抜け防止モード: ベンチマークの学習 まずは フェデレーション画像分類のための古典的なベンチマークにおけるフェドーの性能評価
0.65
Figure 3 shows the maximum accuracy achieved by different Federated Distillation methods after T = 100 communication rounds at different levels of data heterogeneity. 図3は、異なるレベルのデータ不均一性でT = 100通信ラウンド後に異なるフェデレーション蒸留法によって達成された最大精度を示しています。 0.63
As we can see, FEDAUX distinctively outperforms FEDDF on the entire range of data heterogeneity levels α on all benchmarks. ご覧の通り、fedoは全ベンチマークのデータ異質性レベルαにおいてfedfを際立たせている。 0.58
For instance, when training ResNet8 with n = 80 clients at α = 0.01, FEDAUX raises the maximum achieved accuracy from 18.2% to 78.1% (under the same set of assumptions). 例えば、α = 0.01 で n = 80 のクライアントで ResNet8 を訓練すると、FEDAUX は18.2% から78.1% まで(同じ仮定で)到達した最大精度を上げる。 0.81
The two components of FEDAUX, unsupervised pre-training and weighted ensemble distillation, both contribute independently to the performance improvement, as can be seen when comparing with FEDDF+P, which only uses unsupervised pre-training. 教師なしプレトレーニングと重み付きアンサンブル蒸留の2つの成分は、教師なしプレトレーニングのみを使用するfedf+pと比較しても、パフォーマンス改善に独立して寄与する。 0.62
Weighted ensemble 重み付きアンサンブル 0.40
distillation as done in FEDAUX leads to greater or equal performance than equally weighted distillation (FEDDF+P) across all levels of data heterogeneity. FEDAUXで行われる蒸留は、あらゆるレベルのデータ不均一性において等重蒸留(FEDDF+P)よりも大きな、または同等のパフォーマンスをもたらす。 0.61
The same overall picture can be observed in the ”Mixed” setting where clients train different model architectures. 同じ全体像は、クライアントが異なるモデルアーキテクチャをトレーニングする“Mixed”設定で見ることができます。 0.77
Detailed training curves are given in the Appendix E. Table 1 compares the performance of FEDAUX and baseline methods at different client participation rates C. We can see that FEDAUX benefits from higher participation rates. 詳細なトレーニング曲線はappendix e. table 1で示されており、異なるクライアント参加率でのfedoメソッドとベースラインメソッドのパフォーマンスを比較している。 0.56
In all scenarios, methods which are initialized using the pre-trained feature-extractor h0 distinctively outperform their randomly initialized counterparts. すべてのシナリオにおいて、事前訓練された機能抽出器h0を使用して初期化されるメソッドは、ランダムに初期化されるメソッドを著しく上回る。
訳抜け防止モード: すべてのシナリオにおいて、メソッドは is initialized using the pre- trained feature - extractor h0 ランダムに初期化したものよりも 顕著に優れています
0.54
In the iid setting at α = 100.0 FEDAUX is mostly en par with the (improved) parameter averaging based methods FEDAVG+P and FEDPROX+P, with a maximum performance gap of 0.8%. α = 100.0 FEDAUX での iid 設定は、ほとんどの場合 FEDAVG+P と FEDPROX+P のパラメータ平均化法と同等であり、最大性能差は 0.8% である。 0.78
At α = 0.01 on the other hand FEDAUX outperforms all other methods with a margin of up to 29%. 一方、α = 0.01 では、FEDAUX は他のすべての手法よりも29%のマージンを持つ。 0.78
4.3. Evaluating FEDAUX on NLP Benchmarks 4.3. NLPベンチマークによるFEDAUXの評価 0.68
Figure 4 shows learning curves for Federated training of TinyBERT on the Amazon and AG-News datasets at two different levels of data heterogeneity α. 図4は、AmazonおよびAG-Newsデータセット上のTinyBERTフェデレーショントレーニングの学習曲線を、2つの異なるレベルのデータ異種性αで示しています。 0.65
We observe, that 私たちは観察します。 0.57
102101100101Data Heterogeneity 0.40.60.8AccuracyRes Net8 n=80FedAVGFedDFFedDF+PFedAUX102101100101D ata Heterogeneity 0.20.40.60.8Accuracy MobileNetv2 n=100FedAVGFedDFFedDF+PFedAUX102101100101D ata Heterogeneity 0.40.60.8AccuracyShu ffleNet n=100FedAVGFedDFFedDF+PFedAUX102101100101D ata Heterogeneity 0.40.60.8AccuracyMix ed n=60FedDFFedDF+PFedAUX01020Communic ation Round0.00.20.4Accura cyAMAZON, =0.01FedAVG+PFedDF+PFedAUX01020Communic ation Round0.400.450.500.5 5AccuracyAMAZON, =1.0FedAVG+PFedDF+PFedAUX01020Communic ation Round0.20.40.60.8Acc uracyAG_NEWS, =0.01FedAVG+PFedDF+PFedAUX01020Communic ation Round0.800.850.900.9 5AccuracyAG_NEWS, =1.0FedAVG+PFedDF+PFedAUX1021010.6500. 6750.700Accuracy=1.01021010.650.700.7 5Accuracy=0.11021010.50.60.7Ac curacy=0.011021010.20.40.6A ccuracy=0.001No DP=0.0001=1e05=1e06=1e07 102101100101Data Heterogeneity 0.40.60.8AccuracyRes Net8 n=80FedAVGFedDFFedDF+PFedAUX102101100101D ata Heterogeneity 0.20.40.60.8Accuracy MobileNetv2 n=100FedAVGFedDFFedDF+PFedAUX102101100101D ata Heterogeneity 0.40.60.8AccuracyShu ffleNet n=100FedAVGFedDFFedDF+PFedAUX102101100101D ata Heterogeneity 0.40.60.8AccuracyMix ed n=60FedDFFedDF+PFedAUX01020Communic ation Round0.00.20.4Accura cyAMAZON, =0.01FedAVG+PFedDF+PFedAUX01020Communic ation Round0.400.450.500.5 5AccuracyAMAZON, =1.0FedAVG+PFedDF+PFedAUX01020Communic ation Round0.20.40.60.8Acc uracyAG_NEWS, =0.01FedAVG+PFedDF+PFedAUX01020Communic ation Round0.800.850.900.9 5AccuracyAG_NEWS, =1.0FedAVG+PFedDF+PFedAUX1021010.6500. 6750.700Accuracy=1.01021010.650.700.7 5Accuracy=0.11021010.50.60.7Ac curacy=0.011021010.20.40.6A ccuracy=0.001No DP=0.0001=1e05=1e06=1e07 0.14
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Table 1. Maximum accuracy achieved by FEDAUX and other baseline FL methods after T = 100 communication rounds, at different participation rates C and levels of data heterogeneity α. 表1。 T = 100通信ラウンド後のFEDAUXおよび他のベースラインFL法によって達成された最大精度は、参加率Cとデータ不均一度αのレベルが異なる。 0.70
20 Clients training ResNet-8 on CIFAR-10. 20クライアントはCIFAR-10でResNet-8をトレーニングします。 0.50
Auxiliary data used is STL10. 補助データはstl10である。 0.64
∗Methods assume availability of auxiliary data. ∗メソッドは補助データの可用性を前提とします。 0.48
†Improved Baselines. ベースラインの改良。 0.48
α = 0.01 C = 0.4 23.6±2.0 34.0±1.9 27.8±0.8 25.7±1.4 32.1±2.0 43.1±0.2 39.3±3.6 29.8±0.8 71.2±2.1 α = 0.01 C = 0.4 23.6±2.0 34.0±1.9 27.8±0.8 25.7±1.4 32.1±2.0 43.1±0.2 39.3±3.6 29.8±0.8 71.2±2.1 0.25
Method FEDAVG (McMahan et al., 2017) FEDPROX (Li et al., 2020a) FEDDF∗ (Lin et al., 2020) FEDBE∗ (Chen & Chao, 2020) FEDAVG+P∗† FEDPROX+P∗† FEDDF+P∗† FEDBE+P∗† FEDAUX∗ 方法 FEDAVG (McMahan et al., 2017) FEDPROX (Li et al., 2020a) FEDFIX (Lin et al., 2020) FEDBEY (Chen & Chao, 2020) FEDAVG+P, FEDPROX+P, FEDDF+P, FEDBE+P, FEDAUX。 0.77
α = 100.0 C = 0.4 82.2±0.0 82.3±0.2 81.4±0.3 82.0±0.1 89.5±0.1 89.1±0.1 88.9±0.1 89.5±0.2 89.0±0.0 α = 100.0 C = 0.4 82.2±0.0 82.3±0.2 81.4±0.3 82.0±0.1 89.5±0.1 89.1±0.1 88.9±0.1 89.5±0.2 89.0±0.0 0.25
C = 0.8 82.3±0.1 82.0±0.3 81.5±0.3 82.2±0.2 89.6±0.1 89.4±0.0 88.9±0.1 89.5±0.0 89.0±0.1 C = 0.8 82.3±0.1 82.0±0.3 81.5±0.3 82.2±0.2 89.6±0.1 89.4±0.0 88.9±0.1 89.5±0.0 89.0±0.1 0.22
C = 0.2 81.3±0.1 81.4±0.1 80.8±0.1 81.4±0.7 89.0±0.1 88.9±0.0 88.8±0.0 89.1±0.1 88.9±0.0 C = 0.2 81.3±0.1 81.4±0.1 80.8±0.1 81.4±0.7 89.0±0.1 88.9±0.0 88.8±0.0 89.1±0.1 88.9±0.0 0.22
C = 0.2 19.9±0.7 28.4±2.5 25.0±0.8 20.9±0.6 30.4±7.9 42.8±2.7 28.8±3.0 30.2±2.2 54.2±0.3 C = 0.2 19.9±0.7 28.4±2.5 25.0±0.8 20.9±0.6 30.4±7.9 42.8±2.7 28.8±3.0 30.2±2.2 54.2±0.3 0.22
C = 0.8 28.9±2.0 42.0±1.0 30.6±0.3 29.1±0.1 38.4±0.5 49.0±0.7 48.1±1.1 37.7±0.0 78.5±0.0 C = 0.8 28.9±2.0 42.0±1.0 30.6±0.3 29.1±0.1 38.4±0.5 49.0±0.7 48.1±1.1 37.7±0.0 78.5±0.0 0.22
Table 2. Maximum accuracy achieved by FEDAUX and other baseline FL methods after 100 communication rounds, when different sets of unlabeled auxiliary data are used for pre-training and/ or distillation. 表2。 FEDAUXおよび他のベースラインFL法が100回の通信ラウンド後に達成した最大精度は、ラベルなし補助データの異なるセットを事前訓練および/または蒸留に使用する場合である。
訳抜け防止モード: 表2。 FEDAUXや他のベースラインFL法による100ラウンドの通信における最大精度の実現 ラベルなし補助データの異なるセットが事前訓練および/または蒸留に使用される場合。
0.73
40 Clients training ResNet-8 on CIFAR-10 at C = 40%. 40クライアントはC = 40%でCIFAR-10でResNet-8を訓練します。 0.65
α 0.01 100.00 α 0.01 100.00 0.65
Method FEDDF FEDDF+P FEDAUX FEDDF FEDDF+P FEDAUX FEDDF+P FEDAUX FEDDF+P FEDAUX法 0.90
STL-10 CIFAR-100 29.5±6.2 27.9±3.2 43.0±5.2 41.6±1.1 71.5±2.5 76.8±0.9 79.9±0.1 79.3±0.7 88.3±0.0 86.7±0.0 88.5±0.0 86.7±0.1 STL-10 CIFAR-100 29.5±6.2 27.9±3.2 43.0±5.2 41.6±1.1 71.5±2.5 76.8±0.9 79.9±0.1 79.3±0.7 88.3±0.0 86.7±0.0 88.5±0.0 86.7±0.1 0.19
SVHN Invertebr. SVHNインバーテブル。 0.56
28.5±3.6 38.8±6.5 68.2±0.7 80.2±0.1 87.4±0.1 87.8±0.1 28.5±3.6 38.8±6.5 68.2±0.7 80.2±0.1 87.4±0.1 87.8±0.1 0.19
28.1±3.9 29.6±3.4 43.7±1.5 80.9±0.1 81.7±0.2 81.6±0.0 28.1±3.9 29.6±3.4 43.7±1.5 80.9±0.1 81.7±0.2 81.6±0.0 0.19
Birds 30.1±2.0 41.4±5.9 65.7±3.1 80.2±0.4 87.6±0.0 87.8±0.1 Birds 30.1±2.0 41.4±5.9 65.7±3.1 80.2±0.4 87.6±0.0 87.8±0.1 0.21
Auxiliary Data Devices 26.3±0.2 35.9±4.9 71.5±0.1 79.4±0.3 87.7±0.1 87.8±0.0 補助データ Devices 26.3±0.2 35.9±4.9 71.5±0.1 79.4±0.3 87.7±0.1 87.8±0.0 0.49
Dogs 28.9±5.1 41.1±7.3 71.8±3.8 79.7±0.4 88.4±0.0 88.6±0.0 Dogs 28.9±5.1 41.1±7.3 71.8±3.8 79.7±0.4 88.4±0.0 88.6±0.0 0.21
Structures 30.2±7.0 36.7±7.1 64.1±3.3 80.1±0.2 87.4±0.1 87.3±0.1 Structures 30.2±7.0 36.7±7.1 64.1±3.3 80.1±0.2 87.4±0.1 87.3±0.1 0.21
Table 3. One-shot performance of different FL methods. 表3。 異なるFLメソッドのワンショットパフォーマンス。 0.72
Maximum accuracy achieved after T = 1 communication rounds at participation-rate C = 100%. 参加率C = 100%でT = 1通信ラウンド後に達成された最大精度。 0.80
Each client trains for E = 40 local epochs. 各クライアントはE = 40ローカルエポックをトレーニングします。 0.74
Method FEDAVG FEDPROX FEDDF FEDAVG+P FEDPROX+P FEDDF+P FEDAUX FEDAVG+P FEDPROX+P FEDPROX+P FEDDF+P FEDAUX法 0.65
MobileNetv2, n = 100 MobileNetv2, n = 100 0.99
Shufflenet, n = 100 Shufflenet, n = 100 0.85
α = 0.01 α = 0.04 α = 0.16 α = 10.24 30.5±0.9 10.3±0.0 11.6±0.8 30.5±0.5 16.8±4.2 40.4±0.5 69.9±0.0 24.3±1.1 70.0±0.1 27.2±2.2 46.7±5.6 71.2±0.1 64.8±0.0 71.3±0.1 α = 0.01 α = 0.04 α = 0.16 α = 10.24 30.5±0.9 10.3±0.0 11.6±0.8 30.5±0.5 16.8±4.2 40.4±0.5 69.9±0.0 24.3±1.1 70.0±0.1 27.2±2.2 46.7±5.6 71.2±0.1 64.8±0.0 71.3±0.1 0.27
13.6±2.3 14.3±1.4 29.5±3.8 44.0±4.4 43.4±3.6 61.1±1.3 65.5±1.0 13.6±2.3 14.3±1.4 29.5±3.8 44.0±4.4 43.4±3.6 61.1±1.3 65.5±1.0 0.19
23.6±0.0 23.7±0.3 37.7±1.1 57.6±3.7 56.9±3.9 67.6±0.5 68.2±0.2 23.6±0.0 23.7±0.3 37.7±1.1 57.6±3.7 56.9±3.9 67.6±0.5 68.2±0.2 0.19
α = 0.01 α = 0.04 α = 0.16 α = 10.24 37.8±0.7 12.1±0.8 12.9±1.7 38.9±0.5 16.0±5.1 45.5±0.5 71.9±0.1 25.5±1.4 71.9±0.1 28.4±0.2 40.4±2.7 72.7±0.0 66.9±0.6 72.9±0.1 α = 0.01 α = 0.04 α = 0.16 α = 10.24 37.8±0.7 12.1±0.8 12.9±1.7 38.9±0.5 16.0±5.1 45.5±0.5 71.9±0.1 25.5±1.4 71.9±0.1 28.4±0.2 40.4±2.7 72.7±0.0 66.9±0.6 72.9±0.1 0.27
17.4±0.4 18.9±0.2 27.3±0.1 44.2±0.1 47.1±1.5 59.4±0.8 68.6±0.4 17.4±0.4 18.9±0.2 27.3±0.1 44.2±0.1 47.1±1.5 59.4±0.8 68.6±0.4 0.19
28.2±0.8 29.4±0.3 38.7±0.2 62.9±1.6 63.3±1.2 68.8±0.2 70.8±0.3 28.2±0.8 29.4±0.3 38.7±0.2 62.9±1.6 63.3±1.2 68.8±0.2 70.8±0.3 0.19
FEDAUX significantly outperforms FEDDF+P as well as FEDAVG+P in the heterogeneous setting (α = 0.01) and reaches 95% of its final accuracy after one communication round on both datasets, indicating suitability for one-shot learning. FEDAUX は FEDDF+P と FEDAVG+P を不均一な設定 (α = 0.01) で大幅に上回り、両方のデータセット上で1回の通信ラウンド後に最終的な精度の95%に達する。 0.78
On more homogeneous data (α = 1.0) FEDAUX performs mostly en par with pre-trained versions of FEDAVG and FEDDF, with a maximal performance gap of 1.1 % accuracy on the test set. より均質なデータ (α = 1.0) では、FEDAUX は FEDAVG と FEDDF の訓練済みバージョンと同等に動作し、テストセットの最大性能ギャップは 1.1 % である。 0.85
We note, that effects of data heterogeneity are less severe as in this setting as both the AG News and the Amazon data set only have four and five labels respectively and an α of 1.0 already leads to a distribution where each clients owns a subset of the private AG NewsとAmazonのデータセットはそれぞれ4つのラベルと5つのラベルしか持たず、1.0のαはすでに各クライアントがプライベートのサブセットを所有しているディストリビューションにつながるため、データ不均一性の影響は、この設定のように深刻ではないことに注意してください。 0.67
data set containing all possible labels. すべての可能なラベルを含むデータセット。 0.70
Further details on our implementation can be found the Appendix G. 実装の詳細については、Appendix Gを参照してください。 0.60
4.4. Privacy Analysis of FEDAUX 4.4. フェドーのプライバシー分析 0.74
Figure 5 examines the dependence of FEDAUX’ training performance of the privacy parameters ε, δ and the regularization parameter λ. 図5では、プライバシパラメータε,δと正規化パラメータλのFEDAUXのトレーニング性能の依存性について検討する。 0.84
As we can see, performance comparable to non-private scoring is achievable at conservative privacy parameters ε, δ. ご覧のとおり、非プライベートスコアリングに匹敵するパフォーマンスは保守的なプライバシーパラメータε、δで実現可能です。 0.71
For instance, at λ = 0.01 setting ε = 0.04 and δ = 10−6 reduces the accuracy from 74.6% to 70.8%. 例えば λ = 0.01 で ε = 0.04 と δ = 10−6 を設定すると、精度は 74.6% から 70.8% に低下する。 0.68
At higher values of λ, better privacy guarantees have an even less harmful effect, at the cost however of an λのより高い値では、より良いプライバシー保証は、しかし、コストで、さらに少ない有害な効果をもたらします。 0.74
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
overall degradation in performance. 全体的な性能低下です 0.68
Throughout this empirical study, we have set the default privacy parameters to λ = 0.1, ε = 0.1 and δ = 1e − 5. この実験を通じて、デフォルトのプライバシーパラメータを λ = 0.1, ε = 0.1, δ = 1e − 5 に設定した。 0.77
We also perform an empirical privacy analysis in the Appendix K, which provides additional intuitive understanding and confidence in the privacy properties of our method. また,付録kにおいて経験的プライバシー解析を行い,提案手法のプライバシー特性に対する直感的な理解と信頼性を提供する。 0.73
4.5. Evaluating the dependence on Auxiliary Data 4.5. 補助データへの依存度評価 0.80
Next, we investigate the influence of the auxiliary data set Daux on unsupervised pretraining, distillation and weighted distillation respectively. 次に, 補助データdauxが未指導前訓練, 蒸留, 重み付き蒸留に及ぼす影響について検討した。 0.62
We use CIFAR-10 as training data set and consider 8 different auxiliary data sets, which differ w.r.t their similarity to this client training data - from more similar (STL-10, CIFAR-100) to less similar (Devices, SVHN)3. CIFAR-10をトレーニングデータセットとして使用し、クライアントのトレーニングデータと類似性が異なる8つの補助データセット(STL-10, CIFAR-100)から、類似度が低い(SVHN)3。 0.82
Table 2 shows the maximum achieved accuracy after T = 100 rounds when each of these data sets is used as auxiliary data. 表2は、各データセットが補助データとして使用されるとき、T = 100ラウンド後に達成された最大精度を示す。 0.76
As we can see, performance always improves when auxiliary data is used for unsupervised pre-training. ご覧のとおり、教師なし事前トレーニングに補助データを使用する場合、パフォーマンスは常に向上します。 0.60
Even for the highly dissimilar SVHN data set (which contains images of house numbers) performance of FEDDF+P improves by 1% over FEDDF in both the iid and non-iid regime. FEDDF+Pの性能は、非常に異種なSVHNデータセット(住宅番号の画像を含む)でも、iidと非idの双方でFEDDFよりも1%向上する。 0.74
For other data sets like Dogs, Birds or Invertebrates performance improves by up to 14%, although they overlap with only one single class of the CIFAR-10 data set. Dogs、Birds、Invertebratesなどの他のデータセットでは、CIFAR-10データセットの1つのクラスと重複するが、パフォーマンスは最大14%向上する。 0.77
The outperformance of FEDAUX on such a wide variety of highly dissimilar data sets suggest that beneficial auxiliary data should be available in the majority of practical FL problems and also has positive implications from the perspective of privacy. このような非常に異なるデータセットに対するFEDAUXのアウトパフォーマンスは、有益な補助データが実用的なFL問題の大部分で利用可能であるべきであることを示唆し、また、プライバシーの観点から肯定的な影響を有する。 0.67
Interestingly, performance of FEDDF seems to only weakly correlate with the performance of FEDDF+P and FEDAUX as a function of the auxiliary data set. 興味深いことに、FEDDFのパフォーマンスは、補助データセットの関数としてFEDDF+PとFEDAUXのパフォーマンスと弱い相関があるようです。 0.75
This suggests, that the properties, which make a data set useful for distillation are not the same ones that make it useful for pre-training and weighted distillation. これは、データセットを蒸留に役立てる性質が、事前訓練や重み付け蒸留に有用であるような性質ではないことを示唆している。 0.63
Investigating this relationship further is an interesting direction of future research. この関係をさらに調査することは、今後の研究の興味深い方向です。 0.64
4.6. FEDAUX in hardware-constrained settings Linear Evaluation: In settings where the FL clients are hardware-constrained mobile or IoT devices, local training of entire deep neural networks like ResNet8 might be infeasible. 4.6. ハードウェア制約設定のFEDAUX 線形評価: FLクライアントがハードウェア制約のモバイルまたはIoTデバイスである設定では、ResNet8のようなディープニューラルネットワーク全体のローカルトレーニングは不可能です。 0.71
We therefore also consider the evaluation of different FL methods, when only the linear classification head g is updated during the training phase. そこで本研究では,訓練期間中に線形分類ヘッドgのみを更新する場合に,異なるFL法の評価も検討する。 0.72
Figure 7 shows training curves in this setting when clients hold data from the CIFAR-10 data set. 図7は、クライアントがCIFAR-10データセットからデータを保持するときに、この設定でトレーニング曲線を示す。 0.72
We see that in this setting performance of FEDAUX is high, independent of the data heterogeneity levels α, suggesting that in the absence of non-convex training dynamics our proposed scoring method actually yields robust weighted ensembles in the sense of (Mansour FEDAUXのこの設定性能はデータ不均一度レベルαとは無関係に高く,非凸トレーニングが欠如している場合,提案手法は実感的に頑健な重み付けアンサンブルが得られることを示唆している。 0.73
3The CIFAR-10 data set contains images from the classes airplane, automobile, bird, cat, deer, dog, frog, horse, ship and truc. 3CIFAR-10データセットには、クラス飛行機、自動車、鳥、猫、鹿、犬、カエル、馬、船、トルークの画像が含まれています。 0.73
Figure 6. Illustration of the Dirichlet data splitting strategy we use throughout the paper, exemplary for a Federated Learning setting with 20 Clients and 10 different classes. 図6。 論文全体を通じて使用するdirichletデータ分割戦略の例、20のクライアントと10の異なるクラスからなる連合学習環境の例を示す。 0.79
Marker size indicates the number of samples held by one client for each particular class. マーカサイズは、特定のクラスごとに1つのクライアントが保持するサンプル数を示す。 0.76
Lower values of α lead to more heterogeneous distributions of client data. α値の低下は、クライアントデータのより異質な分布につながる。 0.82
Figure adapted from (Lin et al., 2020). 図は(Lin et al., 2020)から適応しました。 0.76
Figure 7. Linear evaluation. Training curves for different Federated Learning methods at different levels of data heterogeneity α when only the classification head g is updated in the training phase. 図7。 線形評価。 訓練段階で分類ヘッドgのみを更新した場合、データ不均一性αの異なるレベルで異なるフェデレーション学習方法のトレーニング曲線。 0.72
A total of n = 80 clients training ResNet8 on CIFAR-10 at C = 40%, using STL-10 as auxiliary data set. STL-10を補助データセットとして使用し、C = 40%でCIFAR-10でResNet8を訓練するn = 80クライアントの合計。 0.75
et al., 2008). We note, that FEDAUX also trains much more smoothly, than all other baseline methods. と2008年)。 FEDAUXは、他のすべてのベースラインメソッドよりもずっとスムーズなトレーニングも行っています。 0.60
One-Shot Evaluation: In many FL applications, the number of times a client can participate in the Federated training is restricted by communication, energy and/ or privacy constraints (Guha et al., 2019; Papernot et al., 2018). ワンショット評価: 多くのFLアプリケーションでは、クライアントがフェデレートトレーニングに参加できる回数は、通信、エネルギー、/またはプライバシの制約によって制限されている(Guha et al., 2019; Papernot et al., 2018)。 0.76
To study these types of settings, we investigate the performance of FEDAUX and other FL methods in Federated one-shot learning where we set T = 1 and C = 100%. これらの種類の設定を研究するために、フェデレーションワンショット学習におけるFEDAUXや他のFLメソッドのパフォーマンスを調査し、T = 1とC = 100%を設定します。 0.71
Table 3 compares performance in this setting for n = 100 clients training MobileNetv2 resp. 表3は、この設定でMobileNetv2 respを訓練するn = 100クライアントのパフォーマンスを比較します。 0.65
ShuffleNet. ShuffleNet 0.52
FEDAUX outperforms the baseline methods in this setting at all levels of data heterogeneity α. FEDAUXは、この設定におけるベースラインメソッドをあらゆるレベルのデータ不均一性αで上回る。 0.68
5. Conclusion In this work, we explored Federated Learning in the presence of unlabeled auxiliary data, an assumption made in the quickly growing area of Federated Distillation. 5. 結論本研究では,Federated Distillationの急速に成長する領域における仮定である,ラベルのない補助データの存在下でフェデレーテッドラーニングを検討した。 0.76
By leveraging auxiliary data for unsupervised pre-training and weighted ensemble distillation we were able to demonstrate that this assumption is rather strong and can lead to drastically improved performance of FL algorithms. 教師なし前トレーニングと重み付きアンサンブル蒸留のための補助データを活用することで,この仮定がかなり強く,flアルゴリズムの性能が大幅に向上することを示すことができた。 0.63
These results reveal the limited merit in comparing FD based methods with parameter averaging based methods (which do not make this assumption) and thus have implications for the future evaluation of FD methods in general. これらの結果から,fd法とパラメータ平均化法(この仮定を定めていない)を比較した利点は限定的であり,fd法の将来評価に寄与すると考えられる。 0.82
2468101214161820Clie nts0123456789Labels=0.012468101214161820 Clients0123456789Lab els=0.162468101214161820 Clients0123456789Lab els=10.24020406080100Com munication Round0.30.50.7Accura cy=0.01020406080100Comm unication Round0.30.50.7Accura cy=0.16020406080100Comm unication Round0.30.50.7Accura cy=10.24FedDFFedDF+PFedAVGFedAVG+PFedAUX 2468101214161820Clie nts0123456789Labels=0.0124681012161820Cl ients0123456789Label s=0.162468101214161820 Clients0123456789Lab els=10.24020406080100Com munication Round0.30.50.7Accura cy=0.01020406080100Comm unication Round0.30.50.7Accura cy=0.16020406080100Comm unicacy Round0.30.50.7Accura cy=10.24FedDFFedDF+PFedAVGFedAVG+PFedAUX 0.08
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
References Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., and Zhang, L. Deep learning with differential privacy. 参照: Abadi, M., Chu, A., Goodfellow, I., McMahan, H. B., Mironov, I., Talwar, K., Zhang, L. Deep Learning with differential privacy。 0.85
In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (CCS), pp. 2016 ACM SIGSAC Conference on Computer and Communications Security (CCS), pp。 0.59
308–318, 2016. 308–318, 2016. 0.84
Ahn, J.-H., Simeone, O., and Kang, J. Wireless federated distillation for distributed edge learning with heterogeIn 2019 IEEE 30th Annual International neous data. Ahn, J.-H., Simeone, O., and Kang, J. ヘテロジを用いた分散エッジ学習のための無線フェデレーション蒸留 2019 IEEE 30th Annual International Neous data。 0.82
Symposium on Personal, Indoor and Mobile Radio Communications (PIMRC), pp. 個人、屋内および移動式無線通信(PIMRC)、PPのシンポジウム。 0.70
1–6. IEEE, 2019. 1–6. IEEE、2019年。 0.78
Anil, R., Pereyra, G., Passos, A., Ormandi, R., Dahl, G. E., and Hinton, G. E. Large scale distributed neural network training through online distillation. Anil, R., Pereyra, G., Passos, A., Ormandi, R., Dahl, G.E., Hinton, G.E. オンライン蒸留による大規模分散ニューラルネットワークトレーニング。 0.85
arXiv preprint arXiv:1804.03235, 2018. arXiv preprint arXiv:1804.03235, 2018 0.80
Ben-David, S., Blitzer, J., Crammer, K., Kulesza, A., Pereira, F., and Vaughan, J. W. A theory of learning from different domains. Ben-David, S., Blitzer, J., Crammer, K., Kulesza, A., Pereira, F., and Vaughan, J.W. 異なるドメインからの学習の理論。 0.92
Mach. Learn., 79(1-2):151–175, 2010. Mach 79(1-2):151–175, 2010。 0.64
Bucila, C., Caruana, R., and Niculescu-Mizil, A. Bucila, C., Caruana, R., and Niculescu-Mizil, A。 0.91
Model compression. In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), pp. モデル圧縮。 第12回ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), pp。
訳抜け防止モード: モデル圧縮。 第12回ACM SIGKDD国際知識発見会議に参加して and Data Mining (KDD ) , pp。
0.76
535–541, 2006. 535–541, 2006. 0.84
Technologies, (NAACL-HLT), volume 1, pp. 技術, (NAACL-HLT), 巻1, pp。 0.73
4171–4186, 2019. 4171–4186, 2019. 0.84
Dwork, C. and Roth, A. Dwork, C. and Roth, A。 0.91
The algorithmic foundations of differential privacy. 差分プライバシーのアルゴリズムの基礎。 0.67
Found. Trends Theor. 見つかった 傾向理論家。 0.58
Comput. Sci., 9(3-4):211–407, 2014. Comput Sci., 9(3-4):211–407, 2014 0.65
Ghosh, A., Hong, J., Yin, D., and Ramchandran, K. Robust federated learning in a heterogeneous environment. Ghosh, A., Hong, J., Yin, D., and Ramchandran, K. Robustは異種環境での学習を連合した。 0.84
arXiv preprint arXiv:1906.06629, 2019. arXiv preprint arXiv:1906.06629, 2019 0.81
Guha, N., Talwalkar, A., and Smith, V. One-shot federated Guha, N., Talwalkar, A. and Smith, V. One-shot Federated 0.93
learning. arXiv preprint arXiv:1902.11175, 2019. 学ぶこと。 arXiv preprint arXiv:1902.11175, 2019 0.74
Hashem, S. and Schmeiser, B. Approximating a function and its derivatives using mse-optimal linear combinations of trained feedforward neural networks. Hashem, S. and Schmeiser, B. Approximating a function and its derivatives using mse-optimal linear combinations of training feedforward neural network。 0.93
In Proceedings of the World Congress on Neural Networks, volume 1, pp. The Proceedings of the World Congress on Neural Networks, Volume 1, pp。 0.78
617–620, 1993. 617–620, 1993. 0.84
He, K., Zhang, X., Ren, S., and Sun, J. He, K., Zhang, X., Ren, S., and Sun, J。 0.82
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR, pp。 0.75
770–778, 2016. 770–778, 2016. 0.84
Hinton, G., Vinyals, O., and Dean, J. Hinton, G., Vinyals, O., and Dean, J。 0.83
the knowledge in a neural network. ニューラルネットワークの知識です 0.50
arXiv:1503.02531, 2015. arXiv:1503.02531, 2015 0.70
Distilling arXiv preprint arXivプリプリントの蒸留 0.68
Chang, H., Shejwalkar, V., Shokri, R., and Houmansadr, A. Cronus: Robust and heterogeneous collaborative learning with black-box knowledge transfer. Chang, H., Shejwalkar, V., Shokri, R., and Houmansadr, A. Cronus: ブラックボックスの知識伝達によるロバストと異種共同学習。 0.83
arXiv preprint arXiv:1912.11279, 2019. arXiv preprint arXiv:1912.11279, 2019 0.81
Hoffman, J., Mohri, M., and Zhang, N. Algorithms and theory for multiple-source adaptation. Hoffman, J., Mohri, M., and Zhang, N. マルチソース適応のためのアルゴリズムと理論。 0.89
In Advances in Neural Information Processing Systems (NeurIPS), volume 31, pp. In Advances in Neural Information Processing Systems (NeurIPS), Volume 31, pp。 0.76
8256–8266, 2018. 8256–8266, 2018. 0.84
Chaudhuri, K., Monteleoni, C., and Sarwate, A. D. Differentially private empirical risk minimization. Chaudhuri, K., Monteleoni, C. and Sarwate, A. D. Differentially private empirical risk minimization 0.88
J. Mach. Learn. J. Mach 学ぶ。 0.72
Res., 12:1069–1109, 2011. 2011年、12:1069–1109。 0.65
Hsu, T.-M. H., Qi, H., and Brown, M. Measuring the effects of non-identical data distribution for federated visual classification. Hsu, T.-M. H., Qi, H., Brown, M. フェデレーション視覚分類における非同一データ分布の効果の測定 0.85
arXiv preprint arXiv:1909.06335, 2019. arXiv preprint arXiv:1909.06335, 2019 0.81
Chen, H.-Y. Chen, H.-Y。 0.81
and Chao, W.-L. FedDistill: Making bayesian model ensemble applicable to federated learning. and chao, w.-l. feddistill: making bayesian model ensemble to federated learning (英語) 0.69
arXiv preprint arXiv:2009.01974, 2020. arXiv preprint arXiv:2009.01974, 2020 0.81
Chen, T., Kornblith, S., Norouzi, M., and Hinton, G. E. A simple framework for contrastive learning of visual representations. Chen, T., Kornblith, S., Norouzi, M. and Hinton, G. E. 視覚表現の対照的学習のためのシンプルなフレームワーク。 0.91
In Proceedings of the 37th International Conference on Machine Learning (ICML), pp. 第37回In Proceedings of the 37th International Conference on Machine Learning (ICML, pp。 0.88
1597–1607, 2020. 1597–1607, 2020. 0.84
Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. ImageNet: A large-scale hierarchical image database. Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. ImageNet: 大規模階層画像データベース。 0.94
In Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), pp. コンピュータビジョンとパターン認識に関するIEEEコンピュータ協会会議(CVPR)の進行において、pp。 0.76
248–255, 2009. 248–255, 2009. 0.84
Devlin, J., Chang, M., Lee, K., and Toutanova, K. BERT: Pre-training of deep bidirectional transformers for language understanding. Devlin, J., Chang, M., Lee, K., and Toutanova, K. BERT: 言語理解のための深い双方向変換器の事前トレーニング。 0.90
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language 計算言語学会北米支部2019年大会紀要 : 人間言語 0.37
Itahara, S., Nishio, T., Koda, Y., Morikura, M., and Yamamoto, K. Distillation-based semi-supervised federated learning for communication-efficient collaborative training with non-iid private data. 板原, S., Nishio, T., Koda, Y., Morikura, M. and Yamamoto, K. Distillation-based semi-supervised Federationed learning for communication- efficient collaborative training with non-id private data。 0.86
arXiv preprint arXiv:2008.06180, 2020. arXiv preprint arXiv:2008.06180, 2020 0.80
Jeong, E., Oh, S., Kim, H., Park, J., Bennis, M., and Kim, S. Communication-efficient on-device machine learning: Federated distillation and augmentation under non-iid private data. Jeong, E., Oh, S., Kim, H., Park, J., Bennis, M. and Kim, S. Communication- efficient on-device machine learning: Federated distillation and augmentation under non-id private data。 0.98
arXiv preprint arXiv:1811.11479, 2018. arXiv preprint arXiv:1811.11479, 2018 0.79
Jeong, W., Yoon, J., Yang, E., and Hwang, S. J. Federated semi-supervised learning with inter-client consistency. Jeong, W., Yoon, J., Yang, E., Hwang, S. J. Federated semi-supervised learning with inter-client consistency。 0.93
arXiv preprint arXiv:2006.12097, 2020. arXiv preprint arXiv:2006.12097, 2020 0.81
Jiao, X., Yin, Y., Shang, L., Jiang, X., Chen, X., Li, L., Wang, F., and Liu, Q. TinyBERT: Distilling BERT for natural language understanding. Jiao, X., Yin, Y., Shang, L., Jiang, X., Chen, X., Li, L., Wang, F., and Liu, Q. TinyBERT: 自然言語理解のためにBERTを蒸留する。 0.88
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings (EMNLP), pp. 自然言語処理における経験的手法に関する2020年会議の議事録(emnlp, pp.) 0.70
4163–4174, 2020. 4163–4174, 2020. 0.84
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Jim´enez, D. Dynamically weighted ensemble neural networks for classification. jim 'enez, d. 動的重み付けニューラルネットワークによる分類。 0.78
In IEEE International Joint Conference on Neural Networks Proceedings. IEEE International Joint Conference on Neural Networks Proceedings に参加して 0.90
IEEE World Congress on Computational Intelligence, volume 1, pp. IEEE World Congress on Computational Intelligence, Volume 1, pp。 0.81
753–756, 1998. 753–756, 1998. 0.84
McMahan, B., Moore, E., Ramage, D., Hampson, S., and y Arcas, B. McMahan, B., Moore, E., Ramage, D., Hampson, S., and y Arcas, B。 0.84
A. Communication-efficient learning of deep networks from decentralized data. A. 分散データからのディープネットワークの通信効率の学習 0.73
In Proceedings of the 20th International Conference on Artificial Intelligence and Statistics (AISTATS), pp. 第20回人工知能と統計に関する国際会議(AISTATS)に出席。 0.59
1273–1282, 2017. 1273–1282, 2017. 0.84
Keung, P., Lu, Y., Szarvas, G., and Smith, N. A. Keung、P.、Lu、Y.、Szarvas、G.、およびSmith、N.A。 0.84
The multilingual amazon reviews corpus. 多言語アマゾンレビューコーパス。 0.65
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 自然言語処理に関する実証的手法に関する2020年会議(EMNLP)の開催報告, pp。 0.78
4563–4568, 2020. 4563–4568, 2020. 0.84
Kingma, D. P. and Ba, J. Adam: A method for stochastic Kingma, D. P. and Ba, J. Adam:確率的方法 0.81
optimization. arXiv preprint arXiv:1412.6980, 2014. 最適化。 arXiv preprint arXiv:1412.6980, 2014 0.75
Li, D. and Wang, J. Li, D. and Wang, J。 0.91
ated learning via model distillation. モデル蒸留による評価学習。 0.69
arXiv:1910.03581, 2019. arXiv:1910.03581, 2019。 0.64
FedMD: Heterogenous federarXiv preprint FedMD: Heterogenous FederarXiv preprint 0.79
Li, Q., Wen, Z., and He, B. Federated learning systems: Vision, hype and reality for data privacy and protection. Li, Q., Wen, Z., and He, B. Federated Learning System: データのプライバシーと保護のためのビジョン、誇大広告、現実。 0.87
arXiv preprint arXiv:1907.09693, 2019. arXiv preprint arXiv:1907.09693, 2019 0.81
Li, T., Sahu, A. K., Zaheer, M., Sanjabi, M., Talwalkar, A., and Smith, V. Federated optimization in heterogeneous networks. Li, T., Sahu, A.K., Zaheer, M., Sanjabi, M., Talwalkar, A., Smith, V. 異種ネットワークにおける最適化。 0.82
In Proceedings of Machine Learning and Systems (MLSys), 2020a. In Proceedings of Machine Learning and Systems (MLSys) 2020a。 0.77
Li, X., Huang, K., Yang, W., Wang, S., and Zhang, Z. Li、X.、Huang、K.、Yang、W.、Wang、S.およびZhang、Z。 0.67
On the convergence of FedAvg on non-iid data. 非iidデータに対するFedAvgの収束について 0.68
In Proceedings of 8th International Conference on Learning Representations (ICLR). 第8回国際学習表現会議(ICLR)に参加して 0.75
OpenReview.net, 2020b. OpenReview.net、2020年。 0.63
Li, Y., Zhou, W., Wang, H., Mi, H., and Hospedales, T. M. Fedh2l: Federated learning with model and statistical heterogeneity. Li, Y., Zhou, W., Wang, H., Mi, H., and Hospedales, T. M. Fedh2l: モデルと統計的不均一性によるフェデレーション学習。 0.86
arXiv preprint arXiv:2101.11296, 2021. arXiv preprint arXiv:2101.11296, 2021 0.80
Lin, T., Kong, L., Stich, S. U., and Jaggi, M. Ensemble distillation for robust model fusion in federated learning. Lin, T., Kong, L., Stich, S.U., and Jaggi, M. 連合学習における堅牢なモデル融合のための蒸留。 0.89
In Advances in Neural Information Processing Systems (NeurIPS), volume 33, 2020. In Advances in Neural Information Processing Systems (NeurIPS, Volume 33, 2020)。 0.79
Liu, D. C. and Nocedal, J. Liu, D. C. and Nocedal, J。 0.94
On the limited memory BFGS method for large scale optimization. 大規模最適化のための制限メモリBFGS法について 0.78
Math. Program., 45 (1-3):503–528, 1989. 数学。 プログラム., 45 (1-3):503–528, 1989。 0.75
Mansour, Y., Mohri, M., and Rostamizadeh, A. Domain adaptation with multiple sources. Mansour, Y., Mohri, M., Rostamizadeh, A. 複数のソースを持つドメイン適応。 0.82
In Advances in Neural Information Processing Systems (NeurIPS), volume 21, pp. In Advances in Neural Information Processing Systems (NeurIPS), Volume 21 pp。 0.71
1041–1048, 2008. 1041–1048, 2008. 0.84
Mansour, Y., Mohri, M., Ro, J., and Suresh, A. T. Three approaches for personalization with applications to federated learning. Mansour, Y., Mohri, M., Ro, J., and Suresh, A.T. 統合学習への適用による個人化のための3つのアプローチ。 0.79
arXiv preprint arXiv:2002.10619, 2020. arXiv preprint arXiv:2002.10619, 2020 0.81
Masoudnia, S. and Ebrahimpour, R. Mixture of experts: A literature survey. Masoudnia, S. and Ebrahimpour, R. 専門家の混合: 文献調査。 0.87
Artif. Intell. アーティフ。 インテル。 0.54
Rev., 42(2):275–293, 2014. 42(2):275–293, 2014年。 0.86
Merity, S., Xiong, C., Bradbury, J., and Socher, R. arXiv preprint Merity, S., Xiong, C., Bradbury, J., and Socher, R. arXiv preprint 0.89
Pointer sentinel mixture models. ポインターセンチネル混合モデル。 0.55
arXiv:1609.07843, 2016. arXiv:1609.07843, 2016 0.70
Mohri, M., Sivek, G., and Suresh, A. T. Agnostic federated learning. Mohri, M., Sivek, G., and Suresh, A. T. Agnostic Federationed learning。 0.92
In Proceedings of the 36th International Conference on Machine Learning (ICML), pp. 第36回In Proceedings of the 36th International Conference on Machine Learning (ICML, pp。 0.88
4615–4625, 2019. 4615–4625, 2019. 0.84
Mothukuri, V., Parizi, R. M., Pouriyeh, S., Huang, Y., Dehghantanha, A., and Srivastava, G. A survey on security and privacy of federated learning. Mothukuri, V., Parizi, R.M., Pouriyeh, S., Huang, Y., Dehghantanha, A., and Srivastava, G.連合学習の安全性とプライバシーに関する調査。 0.88
Future Gener. Comput. 将来の世代。 Comput 0.59
Syst., 115:619–640, 2021. 115:619–640, 2021年。 0.66
Nayak, G. K., Mopuri, K. R., Shaj, V., Radhakrishnan, V. B., and Chakraborty, A. Zero-shot knowledge distillation in deep networks. Nayak, G. K., Mopuri, K. R., Shaj, V., Radhakrishnan, V. B., Chakraborty, A. Zero-shot knowledge distillation in deep network。 0.94
In Proceedings of the 36th International Conference on Machine Learning, (ICML), pp. 第36回In Proceedings of the 36th International Conference on Machine Learning, (ICML) pp. 0.93
4743– 4751, 2019. 4743– 4751, 2019. 0.99
Opitz, D. W. and Maclin, R. Popular ensemble methods: An empirical study. Opitz, D. W. and Maclin, R. Popular アンサンブル法:実証的研究。 0.80
J. Artif. Intell. J. Artif インテル。 0.66
Res., 11:169–198, 1999. 1999年、11:169-198。 0.63
Papernot, N., Song, S., Mironov, I., Raghunathan, A., Talwar, K., and Erlingsson, ´U. Papernot, N., Song, S., Mironov, I., Raghunathan, A., Talwar, K., Erlingsson, ́U。 0.82
Scalable private learning with PATE. PATEでスケーラブルなプライベートラーニング。 0.68
In Proceedings of the 6th International Conference on Learning Representations (ICLR). 第6回国際学習表現会議(ICLR)に参加して 0.69
OpenReview.net, 2018. OpenReview.net 2018年。 0.74
Perrone, M. P. and Cooper, L. N. When networks disagree: Ensemble methods for hybrid neural networks. perrone, m. p. and cooper, l. n. when networks disagree: ensemble methods for hybrid neural networks (英語) 0.77
In Mammone, R. J. Mammoneでは、R.J。 0.75
(ed. ), Neural Networks for Speech and Image Processing. (エド) )、音声および画像処理のためのニューラルネットワーク。 0.64
Chapman and Hall, 1993. チャップマンとホール、1993年。 0.63
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., and Sutskever, I. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., Sutskever, I。 0.81
Language models are unsupervised multitask learners. 言語モデルは教師なしマルチタスク学習者である。 0.60
OpenAI blog, 1(8):9, 2019. OpenAI blog, 1(8):9, 2019。 0.90
Reddi, S., Charles, Z., Zaheer, M., Garrett, Z., Rush, K., Koneˇcn`y, J., Kumar, S., and McMahan, H. B. Adaptive federated optimization. Reddi, S., Charles, Z., Zaheer, M., Garrett, Z., Rush, K., Kone'cn`y, J., Kumar, S., and McMahan, Adaptive Federated Optimization。 0.80
arXiv preprint arXiv:2003.00295, 2020. arXiv preprint arXiv:2003.00295, 2020 0.81
Sandler, M., Howard, A. G., Zhu, M., Zhmoginov, A., and Chen, L. MobileNetV2: Inverted residuals and linear bottlenecks. Sandler, M., Howard, A.G., Zhu, M., Zhmoginov, A., and Chen, L. MobileNetV2: Inverted Resids and linear bottlenecks。 0.90
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR, pp。 0.75
4510–4520, 2018. 4510–4520, 2018. 0.84
Sattler, F., Marban, A., Rischke, R., and Samek, W. Communication-efficient federated distillation. Sattler, F., Marban, A., Rischke, R., and Samek, W. コミュニケーション効率の高い連合蒸留。 0.89
arXiv preprint arXiv:2012.00632, 2020a. arXiv preprint arXiv:2012.00632, 2020a 0.73
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Yuksel, S. E., Wilson, J. N., and Gader, P. D. Twenty years IEEE Trans. Yuksel, S. E., Wilson, J. N., and Gader, P. D. Twenty years IEEE Trans。 0.98
Neural Networks ニューラルネットワーク 0.71
of mixture of experts. Learn. 専門家の混合物の。 学ぶ。 0.67
Syst., 23(8):1177–1193, 2012. 23(8):1177–1193, 2012年。 0.81
Zhang, F., Kuang, K., You, Z., Shen, T., Xiao, J., Zhang, Y., Wu, C., Zhuang, Y., and Li, X. Federated unsupervised representation learning. Zhang, F., Kuang, K., You, Z., Shen, T., Xiao, J., Zhang, Y., Wu, C., Zhuang, Y., Li, X. 教師なし表現学習。 0.76
arXiv preprint arXiv:2010.08982, 2020a. arXiv preprint arXiv:2010.08982, 2020a 0.73
Zhang, X., Zhao, J. J., and LeCun, Y. Character-level convolutional networks for text classification. Zhang, X., Zhao, J. J., and LeCun, Y. テキスト分類のための文字レベルの畳み込みネットワーク。 0.85
In Advances in Neural Information Processing Systems (NeurIPS), volume 28, pp. In Advances in Neural Information Processing Systems (NeurIPS), Volume 28 pp。 0.71
649–657, 2015. 649–657, 2015. 0.84
Zhang, X., Zhou, X., Lin, M., and Sun, J. ShuffleNet: An extremely efficient convolutional neural network for mobile devices. Zhang, X., Zhou, X., Lin, M., and Sun, J. ShuffleNet: モバイルデバイス用の非常に効率的な畳み込みニューラルネットワーク。 0.88
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR, pp。 0.75
6848–6856, 2018. 6848–6856, 2018. 0.84
Zhang, Z., Yao, Z., Yang, Y., Yan, Y., Gonzalez, J. E., and Mahoney, M. W. Benchmarking semi-supervised federated learning. Zhang, Z., Yao, Z., Yang, Y., Yan, Y., Gonzalez, J. E., and Mahoney, M. W. Benchmarking semi-supervised Federated Learning。 0.94
arXiv preprint arXiv:2008.11364, 2020b. arXiv preprint arXiv:2008.11364, 2020b 0.73
Zhao, Y., Li, M., Lai, L., Suda, N., Civin, D., and Chandra, V. Federated learning with non-iid data. Zhao, Y., Li, M., Lai, L., Suda, N., Civin, D., and Chandra, V. Federated Learning with non-id data。 0.89
arXiv preprint arXiv:1806.00582, 2018. arXiv preprint arXiv:1806.00582, 2018 0.80
Zhou, Y., Pu, G., Ma, X., Li, X., and Wu, D. Distilled oneshot federated learning. Zhou, Y., Pu, G., Ma, X., Li, X., and Wu, D. ワンショット連合学習。 0.78
arXiv preprint arXiv:2009.07999, 2020. arXiv preprint arXiv:2009.07999, 2020 0.80
Zhu, Y., Kiros, R., Zemel, R. S., Salakhutdinov, R., Urtasun, R., Torralba, A., and Fidler, S. Aligning books and movies: Towards story-like visual explanations by watching movies and reading books. Zhu, Y., Kiros, R., Zemel, R. S., Salakhutdinov, R., Urtasun, R., Torralba, A., and Fidler, S. Aligning books and movies: towards the story-like visual explanations by watching movie and reading book。 0.93
In Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), pp. In Proceedings of the 2015 IEEE International Conference on Computer Vision (ICCV), pp。 0.76
19–27, 2015. 19–27, 2015. 0.84
Sattler, F., M¨uller, K.-R., and Samek, W. Clustered federated learning: Model-agnostic distributed multitask optimization under privacy constraints. Sattler, F., M suller, K.-R., Samek, W. Clustered Federated Learning: プライバシ制約下でのモデルに依存しない分散マルチタスク最適化。 0.66
IEEE Trans. IEEE Trans。 0.82
Neural Netw. Learn. ニューラルネット。 学ぶ。 0.57
Syst., pp. Syst., pp. 0.85
1–13, 2020b. 1-13, 2020b。 0.57
Sattler, F., Wiedemann, S., M¨uller, K.-R., and Samek, W. Robust and communication-efficient federated learning from non-iid data. Sattler, F., Wiedemann, S., M suller, K.-R., and Samek, W. Robust, and communication- efficient federated learning from non-id data。 0.82
IEEE Trans. IEEE Trans。 0.82
Neural Netw. Learn. ニューラルネット。 学ぶ。 0.57
Syst., 31(9):3400–3413, 2020c. 31(9):3400–3413, 2020c。 0.83
Schapire, R. E. A brief introduction to boosting. Schapire, R.E.ブースティングの簡単な紹介。 0.64
In Proceedings of the 16th International Joint Conference on Artificial Intelligence (IJCAI), pp. 第16回人工知能に関する国際共同会議(IJCAI)の進行において、pp。 0.64
1401–1406, 1999. 1401–1406, 1999. 0.84
Seo, H., Park, J., Oh, S., Bennis, M., and Kim, S. Federated knowledge distillation. Seo, H., Park, J., Oh, S., Bennis, M. and Kim, S. S. Federated knowledge distillation 0.90
arXiv preprint arXiv:2011.02367, 2020. arXiv preprint arXiv:2011.02367, 2020 0.81
Sharkey, A. J. C. On combining artificial neural nets. Sharkey, A. J. C. 人工ニューラルネットの組み合わせについて 0.66
Con- nect. Sci., 8(3):299–314, 1996. コン ネク Sci., 8(3):299–314, 1996。 0.64
Sheller, M. J., Edwards, B., Reina, G. A., Martin, J., Pati, S., Kotrotsou, A., Milchenko, M., Xu, W., Marcus, D., Colen, R. R., et al. Sheller, M.J., Edwards, B., Reina, G.A., Martin, J., Pati, S., Kotrotsou, A., Milchenko, M., Xu, W., Marcus, D., Colen, R.R., et al。 0.89
Federated learning in medicine: Facilitating multi-institutional collaborations without sharing patient data. 医学における連合学習:患者データを共有することなく多施設連携を促進する。 0.64
Scientific Reports, 10(1):1–12, 2020. 科学誌 10(1):1–12, 2020。 0.79
Smith, V., Chiang, C., Sanjabi, M., and Talwalkar, A. S. Federated multi-task learning. Smith, V., Chiang, C., Sanjabi, M., Talwalkar, A. S. Federated multi-task learning。 0.91
In Advances in Neural Information Processing Systems (NeurIPS), volume 30, pp. In Advances in Neural Information Processing Systems (NeurIPS), Volume 30, pp。 0.76
4424–4434, 2017. 4424–4434, 2017. 0.84
Sollich, P. and Krogh, A. Sollich, P. and Krogh, A。 0.89
Learning with ensembles: How overfitting can be useful. アンサンブルによる学習: オーバーフィットがいかに役に立つか。 0.50
In Advances in Neural Information Processing Systems (NeurIPS), volume 8, pp. In Advances in Neural Information Processing Systems (NeurIPS), Volume 8, pp。 0.76
190– 196, 1995. 190– 196, 1995. 0.99
Sun, L. and Lyu, L. Sun, L. and Lyu, L。 0.92
with noise-free differential privacy. ノイズフリーの差動プライバシー。 0.64
arXiv:2009.05537, 2020. arXiv:2009.05537, 2020 0.70
Federated model distillation arXiv preprint フェデレーション モデル蒸留 arXiv プレプリント。 0.72
Wang, K., Mathews, R., Kiddon, C., Eichner, H., Beaufays, F., and Ramage, D. Federated evaluation of on-device personalization. Wang, K., Mathews, R., Kiddon, C., Eichner, H., Beaufays, F., and Ramage, D. デバイス上のパーソナライゼーションの評価。 0.79
arXiv preprint arXiv:1910.10252, 2019. arXiv preprint arXiv:1910.10252, 2019 0.80
Wang, T. and Isola, P. Understanding contrastive representation learning through alignment and uniformity on the hypersphere. Wang, T. and Isola, P. Understanding contrastive representation learning through alignment and uniformity on the hypersphere。 0.89
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
9929–9939. 9929–9939. 0.71
PMLR, 2020. PMLR、2020年。 0.88
Wu, H., Chen, C., and Wang, L. A theoretical perspective on differentially private federated multi-task learning. Wu, H., Chen, C., Wang, L. 微分プライベートフェデレーションマルチタスク学習に関する理論的見解。 0.74
arXiv preprint arXiv:2011.07179, 2020. arXiv preprint arXiv:2011.07179, 2020 0.81
You, S., Xu, C., Xu, C., and Tao, D. Learning from multiple teacher networks. あなた、S.、Xu、C.、Xu、C.、Tao、D. 複数の教師ネットワークから学ぶ。 0.80
In Proceedings of the 23rd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), pp. 第23回ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), pp。
訳抜け防止モード: 第23回ACM SIGKDD国際知識発見会議に参加して and Data Mining (KDD ) , pp。
0.76
1285–1294, 2017. 1285–1294, 2017. 0.84
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
- SUPPLEMENTARY MATERIALS - A. Extended Related Work Discussion Ensemble Distillation in Federated Learning: A new family of Federated Learning methods leverages model distillation (Hinton et al., 2015) to aggregate the client knowledge (Jeong et al., 2018; Lin et al., 2020; Itahara et al., 2020; Chen & Chao, 2020). -補助材- A。 Extended Related Work discussion Ensemble Distillation in Federated Learning: A new family of Federated Learning method(Hinton et al., 2015)は、モデル蒸留を利用してクライアントの知識を集約する(Jeong et al., 2018; Lin et al., 2020; Itahara et al., 2020; Chen & Chao, 2020)。 0.72
These Federated Distillation (FD) techniques have at least three distinct advantages over prior, parameter averaging based methods and related work can be organized according to which of these aspects it primarily focuses on. これらのフェデレート蒸留(FD)技術は、前よりも少なくとも3つの異なるアドバンテージを持ち、パラメータ平均化ベースのメソッドと関連する作業は、主に焦点を絞ったこれらの側面に基づいて組織化することができる。 0.63
First, Federated Distillation enables aggregation of client knowledge independent of the model architecture and thus allows clients to train models of different structure, which gives additional flexibility, especially in hardwareconstrained settings. まず、フェデレーション蒸留は、モデルアーキテクチャに依存しないクライアント知識の集約を可能にするため、クライアントは異なる構造のモデルをトレーニングできるため、特にハードウェア制約された設定において、柔軟性が増す。 0.60
FEDMD (Li & Wang, 2019), Cronus (Chang et al., 2019) and FEDH2L (Li et al., 2021) address this aspect. FEDMD (Li & Wang, 2019), Cronus (Chang et al., 2019), FEDH2L (Li et al., 2021) はこの側面に対処している。 0.94
FedMD additionally requires to locally pretrain on the labeled public data which makes it difficult to perform a fair numerical comparison. さらにfedmdはラベル付き公開データをローカルに事前トレーニングする必要があるため、公平な数値比較を行うことが難しい。 0.67
FedH2L requires communication of soft-label information after every gradient descent step and is thus not suitable for most practical FL applications where communication channels are intermittent. FedH2Lは、勾配降下ステップ毎にソフトラベル情報の通信を必要とするため、通信チャネルが断続的であるほとんどの実用FLアプリケーションには適さない。 0.59
Cronus addresses aspects of robustness to adversaries but is shown to perform consistently worse than FEDAVG in conventional FL. Cronusは、敵に対する堅牢性の側面に対処しますが、従来のFLではFEDAVGよりも一貫して悪いパフォーマンスを発揮します。
訳抜け防止モード: Cronusは敵対者に対する堅牢性の側面に対処します。 従来のFLではFEDAVGより一貫して悪化します。
0.51
While we do not focus on this aspect, our proposed approach is flexible enough to handle heterogeneous client models (c.f. 我々はこの側面に注目していないが、提案手法は異種クライアントモデル(c.f.)を扱うのに十分な柔軟性がある。 0.62
Appendix C). Appendix C)。 0.73
Second, Federated Distillation has advantageous communication properties. 第二に、Federated Distillationに有利なコミュニケーション特性があります。 0.51
As models are aggregated by means of distillation instead of parameter averaging it is no longer necessary to communicate the raw parameters. モデルが平均するパラメータの代わりに蒸留によって集約されるので、生のパラメータを伝える必要がなくなる。 0.76
Instead it is sufficient for the clients to only send their soft-label predictions on the distillation data. 代わりに、クライアントがソフトラベルの予測を蒸留データに送信するだけで十分である。 0.70
Consequently, the communication in FD scales with the size of the distillation data set and not with the size of the jointly trained model as in the classical parameter averaging based FL. その結果、FDにおける通信は、蒸留データセットのサイズとスケールし、古典的パラメータ平均化ベースFLのように、共同訓練されたモデルのサイズと一致しない。 0.73
This leads to communication savings, especially if the local models are large and the distillation data set is small. これにより、特にローカルモデルが大きく、蒸留データセットが小さい場合には、通信の節約につながる。 0.75
Jeong et. al and subsequent work (Jeong et al., 2018; Itahara et al., 2020; Seo et al., 2020; Sattler et al., 2020a) focus on this aspect. ジュンなど。 以降の作品(Jeong et al., 2018; Itahara et al., 2020; Seo et al., 2020; Sattler et al., 2020a)はこの側面に焦点を当てています。 0.74
These methods however are computationally more expensive for the resource constrained clients, as distillation needs to be しかしこれらの方法は、蒸留が必要なため、リソース制約のあるクライアントにとって計算上より高価である。 0.62
performed locally and perform worse than parameter averaging based training after the same number of communication rounds. 同じ数の通信ラウンドの後、ローカルで実行し、パラメータ平均ベースのトレーニングよりも悪い実行します。 0.64
Our proposed approach relies on communication of full models and thus requires communication at the order of conventional parameter averaging based methods. 提案手法はフルモデルの通信に依存しており,従来のパラメータ平均化手法の順に通信を行う必要がある。 0.85
Third, when combined with parameter averaging, Federated Distillation methods achieve better performance than purely parameter averaging based techniques. 第3に、パラメータ平均化と組み合わせると、フェデレート蒸留法は純粋なパラメータ平均化技術よりも優れた性能が得られる。 0.65
Both the authors in (Lin et al., 2020) and (Chen & Chao, 2020) propose FL protocols, which are based on classical FEDAVG and perform ensemble distillation after averaging the received client updates at the server to improve performance. 著者ら (Lin et al., 2020) と (Chen & Chao, 2020) は、従来のFEDAVGをベースとしたFLプロトコルを提案し、受信したクライアント更新を平均化し、性能を向上させるためにアンサンブル蒸留を行う。 0.76
FEDBE, proposed by (Chen & Chao, 2020), additionally combines client predictions by means of a Bayesian model ensemble to further improve robustness of the aggregation. FEDBEは(Chen & Chao, 2020)提案され、さらにベイジアンモデルアンサンブルによるクライアント予測を組み合わせて、集約の堅牢性をさらに向上させます。 0.74
Our work primarily focuses on this latter aspect. 私たちの仕事は主に後者の側面に焦点を当てています。 0.55
Building upon the work of (Lin et al., 2020), we additionally leverage the auxiliary distillation data for unsupervised pre-training and weigh the client predictions in the distillation step according to their certainty scores to better cope with settings where the client’s data generating distributions are statistically heterogeneous. また, (Lin et al., 2020) の成果に基づき, 教師なし事前学習のための補助蒸留データを活用するとともに, その確実性に応じて, 蒸留工程におけるクライアントの予測値を測定し, クライアントのデータ生成分布が統計的に不均一な設定に対処する。 0.79
We also mention the related work by Guha et al. また、グハらの関連作品についても言及します。 0.56
(Guha et al., 2019), which proposes a one-shot distillation method for convex models, where the server distills the locally optimized client models in a single round as well as the work of (Sun & Lyu, 2020) which addresses privacy issues in Federated Distillation. (Guha et al., 2019)は、凸モデルのワンショット蒸留法を提案し、サーバは、フェデレーション蒸留におけるプライバシー問題に対処する(Sun & Lyu, 2020)と同様に、単一のラウンドでローカルに最適化されたクライアントモデルを蒸留する。 0.69
Federated one-shot distillation is also addressed in (Zhou et al., 2020). フェデレーションワンショット蒸留についても言及している(Zhou et al., 2020)。 0.59
Federated Distillation for edge-learning was proposed in (Ahn et al., 2019). エッジラーニングのためのFederated Distillationが提案された(Ahn et al., 2019)。 0.58
Weighted Ensembles: The study of weighted ensembles started around the ’90s with the work by (Hashem & Schmeiser, 1993; Perrone & Cooper, 1993; Sollich & Krogh, 1995). Weighted Ensembles: 重み付けアンサンブルの研究は、90年代にHashem & Schmeiser, 1993; Perrone & Cooper, 1993; Sollich & Krogh, 1995)によって始まった。 0.73
A weighted ensemble of models combines the output of the individual models by means of a weighted average in order to improve the overall generalization performance. モデルの重み付きアンサンブルは、全体的な一般化性能を向上させるために重み付き平均によって個々のモデルの出力を結合する。 0.78
The weights allow to indicate the percentage of trust or expected performance for each individual model. 重み付けによって各モデルに対する信頼度や期待性能の比率を示すことができる。 0.77
See (Sharkey, 1996; Opitz & Maclin, 1999) for an overview of ensemble methods. アンサンブル法の概要については (Sharkey, 1996; Opitz & Maclin, 1999) を参照。 0.83
Instead of giving each client a static weight in the aggregation step of distillation, we weight the clients on an instance base as in (Jim´enez, 1998), i.e., each clients prediction is weighted using a data-dependent 蒸留の集約ステップにおいて各クライアントに静的な重みを与える代わりに、インスタンスベース上のクライアントを重み付けする(Jim ́enez, 1998)。
訳抜け防止モード: 各クライアントに蒸留の集約ステップの静的重みを与える代わりに。 私たちはインスタンスベースでクライアントを重み付けします(Jim ́enez, 1998)。 すなわち、各クライアントの予測はデータを使って重み付けされる。
0.76
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
certainty score. Weighted combinations of weak classifiers are also commonly leveraged in centralized settings in the context of of mixture of experts and boosting methods (Yuksel et al., 2012; Masoudnia & Ebrahimpour, 2014; Schapire, 1999). 確実度スコア。 弱い分類器の重み付けの組み合わせは、専門家と強化手法の混在(Yuksel et al., 2012; Masoudnia & Ebrahimpour, 2014; Schapire, 1999)の文脈における集中的な設定でもよく利用される。 0.70
Data Heterogeneity in Federated Learning: As the training data is generated independently on the participation devices, Federated Learning problems are typically characterised by statistically heterogeneous client data (McMahan et al., 2017). フェデレーション学習におけるデータの不均一性: トレーニングデータが参加者デバイス上で独立して生成されるため、フェデレーション学習問題は統計的に異種なクライアントデータによって特徴づけられる(mcmahan et al., 2017)。 0.72
It is well known, that conventional FL algorithms like FEDAVG (McMahan et al., 2017) perform best on statistically homogeneous data and suffer severely in this (“non-iid”) setting (Zhao et al., 2018; Li et al., 2020b). FEDAVG (McMahan et al., 2017)のような従来のFLアルゴリズムは、統計的に同質なデータに対して最善を尽くし、この設定(Zhao et al., 2018; Li et al., 2020b)で重傷を負うことが知られている。 0.81
A number of different studies (Li et al., 2020a; Zhao et al., 2018; Sattler et al., 2020c; Chen & Chao, 2020) have tried to address this issue, but relevant performance improvements so far have only been possible under strong assumptions. いくつかの異なる研究(Li et al., 2020a; Zhao et al., 2018; Sattler et al., 2020c; Chen & Chao, 2020)がこの問題に対処しようとしたが、関連するパフォーマンス改善は強い仮定の下でのみ可能であった。 0.91
For instance (Zhao et al., 2018) assume that the server has access to labeled public data from the same distribution as the clients. 例えば (Zhao et al., 2018) では、サーバがクライアントと同じディストリビューションからラベル付き公開データにアクセスしていると仮定している。 0.81
In contrast, we only assume that the server has access to unlabeled public data from a potentially deviating distribution. 対照的に、私たちはサーバーが潜在的に逸脱する分布からラベルのないパブリックデータにアクセスできると仮定します。 0.69
Other approaches (Sattler et al., 2020c) require high-frequent communication, with up to thousands of communication rounds, between server and clients, which might be prohibitive in a majority of FL applications where communication channels are intermittent and slow. その他のアプローチ(Sattler et al., 2020c)は、通信チャネルが断続的で遅いFLアプリケーションの大部分で禁止されているかもしれないサーバーとクライアントの間で、最大数千回の通信ラウンドを持つ、高頻度の通信を必要とする。 0.63
In contrast, our proposed approach can drastically improve FL performance on non-iid data even after just one single communication round. 一方,提案手法は,単一の通信ラウンドの後にも,非iidデータに対するFL性能を大幅に向上させることができる。 0.68
For completeness, we note that there exists also a different line of research, which aims to address data heterogeneity in FL via meta- and multi-task learning. 完全性については,メタとマルチタスクの学習を通じてFLにおけるデータの均一性に対処することを目的とした,異なる研究線が存在することに留意する。 0.62
Here, separate models are trained for each client (Smith et al., 2017; Wu et al., 2020) or clients are grouped into different clusters with similar distributions (Ghosh et al., 2019; Sattler et al., 2020b). ここでは、クライアントごとに別々のモデル(Smith et al., 2017; Wu et al., 2020)またはクライアントは、同様の分布を持つ異なるクラスタ(Ghosh et al., 2019; Sattler et al., 2020b)に分類されます。 0.90
Unlabeled Data in Federated Learning: To the best of our knowledge, there do not exist any prior studies on the use of unlabeled auxiliary data in FL outside of Federated Distillation methods. フェデレート学習におけるラベルなしデータ:我々の知識の最良のところは、フェデレート蒸留法以外のflにおけるラベルなし補助データの使用に関する先行研究は存在しない。 0.77
Federated semi-supervised learning techniques (Zhang et al., 2020b; Jeong et al., 2020) assume that clients hold both labeled and unlabeled private data from the local training distribution. Federated Semi-supervised Learning Technique (Zhang et al., 2020b; Jeong et al., 2020)は、クライアントがローカルトレーニングディストリビューションからラベル付きおよびラベルなしのプライベートデータを保持することを前提としています。
訳抜け防止モード: federated semi - supervised learning techniques (zhangら) 2020b ; jeong et al ., 2020) では クライアントは、ローカルトレーニングディストリビューションからラベル付きおよびラベルなしのプライベートデータを両方保持する。
0.79
In contrast, we assume that the server has access to public unlabeled data that may differ in distribution from the local client data. 対照的に、サーバはローカルクライアントデータと分布が異なる可能性のある公開ラベルのないデータにアクセス可能であると仮定する。 0.80
Federated self-supervised representation learning (Zhang et al., 2020a) aims to train a feature extractor on private unlabeled client data. Federated Self-supervised representation Learning (Zhang et al., 2020a)は、プライベートなラベルのないクライアントデータに機能抽出器をトレーニングすることを目指している。
訳抜け防止モード: federated self - supervised representation learning (zhang et al ., 2020a) の目標 プライベートなラベルのないクライアントデータに特徴抽出器を訓練する。
0.72
In contrast, we leverage self-supervised representation learning at the server to find a suitable model initialization. 対照的に,自己教師付き表現学習をサーバで活用し,適切なモデル初期化を求める。 0.69
Personalization and Federated Transfer Learning: The aim of Transfer Learning is to transfer learned knowledge from a specific domain or task to related domains or tasks. パーソナライゼーションとフェデレーショントランスファーラーニング:Transfer Learningの目的は、学習した知識を特定のドメインまたはタスクから関連するドメインまたはタスクに転送することです。 0.86
Transfer learning methods are of particular interest in FL 転写学習法はFLに特に関心がある 0.70
Algorithm 1 FEDAUX Preparation Phase (with different model prototypes P) アルゴリズム1 フェドー準備相(異なるモデルプロトタイプp) 0.73
init: Split D− ∪ Ddistill ← Daux init: HashMap R that maps client i to model prototype P Server does: for each model prototype P ∈ P do init: Split D− . Ddistill . Daux init: HashMap R that map client i to model prototype P Server does: for each model prototype P ∈ P do 0.82
0 ← train self supervised(hP , Daux) hP end for for each client i ∈ {1, .., n} in parallel do 0 ) train self supervised(hP , Daux) hP end for each client i ∈ {1, .., n} in parallel do 0.72
Client i does: P ← R[i] σ2 ← 8 ln(1.25δ−1) ε2λ2(|Di|+|D−|)2 i ← arg minw J(w, hP w∗ γi ← maxx∈Di∪D− (cid:107)hP クライアント i は: P ・ R[i] σ2 ・ 8 ln(1.25δ−1) ε2λ2(|Di|+|D−|)2 i ・ arg minw J(w, hP w ・ γi ・ maxx∈Di ・ (cid:107)hP である。
訳抜け防止モード: クライアント i は p を r[i ] σ2 を ln(1.25δ−1 ) ε2λ2(|di|+|d−|)2 i とする。 hp (複数形 hps)
0.65
end for Server does: for i = 1, .., n do create HashMap si ← {x (cid:55)→ (1 + exp(−(cid:104)w∗ x ∈ Ddistill} end for Server do: for i = 1, ....., n do create HashMap si (cid:55)→ (1 + exp(−(cid:104)w: x ∈ Ddistill}
訳抜け防止モード: end for Server do : for i = 1, .., n は HashMap si を x ( cid:55)→ ( 1 + exp(−(cid:104)w) x ∈ Ddistill } で作成します。
0.96
end for 0 , Di, D−) + N (0, Iσ2) 0 (x)(cid:107) 終止符 0 , Di, D−) + N (0, Iσ2) 0 (x)(cid:107) 0.78
i , γ−1 i hP i , γ−1 i hP 0.82
0 (x)(cid:105)))−1 + ξ for 0 (x)(cid:105))−1 + s 0.88
settings where the client’s local data generating distributions are statistically heterogeneous. クライアントのローカルデータ生成分布が統計的に異種である設定。 0.75
To address the statistical heterogeneity, methods for personalizing the server model to the client’s local distributions, e.g. 統計的な異質性に対処するため、サーバモデルをクライアントのローカルディストリビューションにパーソナライズする方法、例えば、 0.70
by using distillation (Li & Wang, 2019), parameter fine-tuning (Wang et al., 2019; Mansour et al., 2020) or regularization (Li et al., 2020a), have been proposed. 蒸留(Li & Wang, 2019)、パラメータ微調整(Wang et al., 2019; Mansour et al., 2020)、または正規化(Li et al., 2020a)を使用して提案されています。 0.86
Transferring knowledge from one domain to another domain raises the question of the generalization capabilities and domain adaptation theory gives answers in the form of generalization bounds. ある領域から別の領域に知識を移すことは、一般化能力の問題を引き起こし、ドメイン適応理論は一般化境界の形で答えを与える。 0.75
Particularly, multiple-source domain adaptation theory (Mansour et al., 2008; Ben-David et al., 2010; Hoffman et al., 2018), which considers the capabilities of transferring knowledge from multiple source domains to some target domain, is relevant for FL. 特にマルチソースドメイン適応理論(mansour et al., 2008; ben-david et al., 2010; hoffman et al., 2018)は、複数のソースドメインから特定のターゲットドメインに知識を転送する能力を考慮しており、flに関係している。 0.83
One interesting question when having knowledge in multiple source domains is how to weight each individual source domain in the process of transferring knowledge to the target domain. 複数のソースドメインで知識を持っているときの興味深い質問の1つは、ターゲットドメインに知識を転送する過程で各ソースドメインを重み付ける方法です。 0.81
In the FEDDF algorithm (Lin et al., 2020), the client’s local hypotheses are uniformly averaged to obtain a global hypothesis and it is remarked that domain adaptation theory (Mansour et al., 2008; Hoffman et al., 2018) has shown such standard convex combinations of source hypotheses not to be robust for the target domain. FEDDFアルゴリズム(Lin et al., 2020)では、クライアントのローカル仮説は、グローバル仮説を得るために一様に平均化されており、ドメイン適応理論(Mansour et al., 2008; Hoffman et al., 2018)は、ターゲットドメインに対して堅牢ではないようなソース仮説の標準凸の組み合わせを示したと指摘されている。 0.75
A distribution-weighte d combination of the local hypotheses, as suggested by domain adaptation theory (Mansour et al., 2008) (Hoffman et al., 2018), based on a privacy-preserving local distribution estimation is posed as an open problem for FL in (Lin et al., 2020). ドメイン適応理論 (Mansour et al., 2008) (Hoffman et al., 2018) によって示唆される局所分布の分布重み付けは、FL in (Lin et al., 2020) の開放的な問題として、プライバシー保護の局所分布推定に基づくものである。 0.84
We address exactly this open question. 私たちはまさにこの疑問に答える。 0.66
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
B. Data Splitting Methodology We split the training data among the clients using the common Dirichlet splitting strategy proposed in (Hsu et al., 2019) and later used in (Lin et al., 2020) and (Chen & Chao, 2020). B。 データ分割方法(Hsu et al., 2019)で提案された一般的なディリクレ分割戦略を使用してクライアント間でトレーニングデータを分割し、その後(Lin et al., 2020)と(Chen & Chao, 2020)で使用されます。 0.78
This approach allows us to smoothly adapt the level of heterogeneity in the client data via the concentration parameter α. このアプローチにより、濃度パラメータαを介してクライアントデータの不均一性レベルをスムーズに適応できる。 0.80
To generate the data split, we sample c vectors データスプリットを生成するために c 個のベクトルをサンプリングし 0.69
p1, .., pc ∼ Dir(α), p1, ., pc は Dir(α) である。 0.90
(11) where c is the number of classes, from the symmetric ncategorical Dirichlet distribution. (11) ここで c は、対称 ncategorical Dirichlet 分布からのクラス数である。 0.82
For all pi ∈ Rn≥0 it then holds (cid:107)pi(cid:107) 1 = 1. すべての pi ∈ Rn≥0 に対して (cid:107)pi(cid:107) 1 = 1 となる。 0.78
The vectors are then stacked To address the statistical heterogeneity, methods for personalizing the server model to the client’s local distributions, e.g. 次にベクターを積み重ねて、統計的な異質性、例えばクライアントのローカルディストリビューションにサーバモデルをパーソナライズする手法に対処する。 0.69
by using distillation (Li & Wang, 2019), parameter fine-tuning (Wang et al., 2019; Mansour et al., 2020) or regularization (Li et al., 2020a), have been proposed. 蒸留(Li & Wang, 2019)、パラメータ微調整(Wang et al., 2019; Mansour et al., 2020)、または正規化(Li et al., 2020a)を使用して提案されています。 0.86
Transferring knowledge from one domain to another domain raises the question of the general into a matrix あるドメインから別のドメインへの知識の移動は、ジェネラルの問題を行列に上げる 0.69
P = [p1, .., pc] ∈ Rn,c P = [p1, .., pc] ∈ Rn,c 0.85
(12) which is standardized, by repeatedly normalizing the columns and rows. (12) 列と行を繰り返し正規化することで標準化されています。 0.75
This process converges quickly and is stopped after 1000 iterations. このプロセスは素早く収束し、1000回のイテレーションで停止する。 0.70
Let Mj be the amount of data points belonging to class j in the training data set. mjをトレーニングデータセット内のクラスjに属するデータポイントの量とする。 0.70
Each client i is then assigned Pi,jMj (non-overlapping) data points from all classes j = 1, .., c. Figure 8 illustrates the splitting procedure and displays random splits of data for n = 20 and c = 10. 各クライアントiには、すべてのクラスj = 1, ., cからpi,jmj (non-overlapping)データポイントが割り当てられる。
訳抜け防止モード: 各クライアント i は、すべてのクラス j = 1 から Pi, jMj (非重複 ) データポイントを割り当てられます。 図8は分割手順を示し、n = 20とc = 10のデータのランダムな分割を表示します。
0.83
In all our experiments, the data splitting process is controlled by a random seed, to ensure that the different baseline methods are all trained on the same split of data. すべての実験において、データ分割プロセスはランダムなシードによって制御され、異なるベースラインメソッドがすべて同じデータ分割でトレーニングされていることを保証する。 0.83
C. Detailed Algorithm The training procedure of FEDAUX can be divided into a preparation phase, which is given in Alg. C.詳細なアルゴリズムFEDAUXのトレーニング手順は、Algで与えられる準備段階に分けることができます。 0.67
1 and a training phase, which is given in Alg. Alg.1とトレーニングフェーズは、Algで与えられています。 0.61
2. We describe the general setting where clients may hold different model prototypes P from a set of prototypes P. This general setting simplifies to the setting described in Sec. 2. クライアントがプロトタイプ P の集合から異なるモデルプロトタイプ P を保持できるような一般的な設定について説明する。 0.71
3 if |P| = 1. 3 ならば |P| = 1 である。 0.61
Preparation Phase: In the preparation phase, the server uses the unlabeled auxiliary data Daux, to pre-train the feature extractor hP for each model prototype P using selfsupervised training. 準備段階:サーバは、未ラベルの補助データDauxを使用して、自己監督訓練を用いて、各モデルプロトタイプPの特徴抽出器hPを事前訓練する。 0.73
Suitable methods for self-supervised pre-training are contrastive representation learning (Chen et al., 2020), or self-supervised language modeling/ nexttoken prediction (Devlin et al., 2019). 自己監督型プリトレーニングの適切な方法は、コントラスト表現学習(Chen et al., 2020)または自己監督型言語モデリング/次の予測(Devlin et al., 2019)である。 0.66
The pre-trained feature extractors hP 0 are then communicated to the clients and used to initialize part of the local classifier f = g ◦ h. The server also communicates the negative data D− to the 事前訓練された特徴抽出器hP 0 はクライアントに通信され、ローカル分類器 f = g {\displaystyle f} の一部を初期化するために使用される。 0.62
Algorithm 2 FEDAUX Training Phase (with different model prototypes P). アルゴリズム2 FEDAUXトレーニングフェーズ(異なるモデルプロトタイプP)。 0.59
Training requires feature extractors 0 and scores si from Alg. トレーニングには特徴抽出器0とAlgのスコアsiが必要である。 0.54
1. The same D− ∪ Ddistill ← hP Daux as in Alg. 1. Alg と同様の D− > Ddistill > hP Daux である。 0.82
1 is used. Choose learning rate η and set ξ = 10−8. 1が使用される。 学習率 η を選べば η = 10−8 となる。 0.71
init: HashMap R that maps client i to model prototype P init: Inverse HashMap ˜R that maps model prototype P to set of clients (s.t. init: クライアント i をプロトタイプ P にマッピングする HashMap R: モデルのプロトタイプ P をクライアントのセット (s.t) にマップする Inverse HashMap > R。 0.87
i ∈ ˜R[R[i]] ∀i) init: Initialize model prototype weights θP with feature extractor weights hP from Alg. i ∈ > R[R[i]] > i) init: モデルプロトタイプの重量 θP を Alg からの特徴抽出量 hP で初期化する。 0.77
1 for communication round t = 1, .., T do select subset of clients St ⊆ {1, .., n} for selected clients i ∈ St in parallel do 1 for communication round t = 1, .., T do select subset of client St , {1, .., n} for selected client i ∈ St in parallel do. 0.80
Client i does: θi ← train(θ0 ← θR[i], Di) クライアント i {\displaystyle i}: θi > train (θ0 > θR[i], Di) 0.77
end for Server does: for each model prototype P ∈ P do End for Server の場合: 各モデルプロトタイプ P ∈ P do に対して 0.88
θP ←(cid:80) θP (cid:80) 0.82
|Di| (cid:80) |Di| (cid:80) 0.69
i∈St∩ ˜R[P ] i∈St. R[P] です。 0.47
# Local Training (cid:16)(cid:80) 十一 地方研修 (cid:16)(cid:80) 0.60
for mini-batch x ∈ Ddistill do ミニバッチ x ∈ Ddistill do の場合 0.75
˜y ← σ θP ← θP − η ∂DKL(˜y,σ(f (x,θP ))) シュイ,σ(f(x,θP )) 0.34
si[x]fi(x,θi) i∈St Si[x]fi(x,i) i∈St 0.93
si[x] (cid:80) si[x] (cid:80) 0.82
i∈St ∂θP # Can be arbitrary i∈St ∂θP # は任意にできる 0.67
# Optimizer l∈St∩ ˜R[P ] |Dl| θi # Parameter # Averaging #オプティマイザ l∈St.R[P ] |Dl| yi # パラメータ 平均値 0.55
(cid:17) end for (cid:17) 終止符 0.70
end for end for clients (in practice we can instead communicate the extracted features {|hP 0 (x)|x ∈ D−} of the raw data D− to save communication). 終止符 終止符 クライアント(実際には、生データ D− の抽出された特徴 {|hP 0 (x)|x ∈ D−} を通信して通信を節約することができる)。
訳抜け防止モード: 終止符 終止符 クライアント(実際には、抽出した特徴 { |hP 0 ( x)|x ∈ D− } を生データ D− で通信する。 コミュニケーションの節約)
0.68
Each client then optimizes the logistic similarity objective J (4) and sanitizes the output by adding properly scaled Gaussian noise. 各クライアントはロジスティック類似性目標 j (4) を最適化し、適切にスケールされたガウス雑音を加えることで出力をサニタイズする。 0.62
Finally, the sanitized scoring model w∗ i is communicated to the server, where it is used to compute certainty scores si on the distillation data (the certainty scores can also be computed on the clients, however this results in additional communication of distillation data and scores). 最後に、サニタイズドスコアリングモデルは、蒸留データ上の確実度スコアsiを計算するために使用されるサーバーに通信されます(確実度スコアはクライアントでも計算できますが、これは蒸留データとスコアの追加通信につながります)。 0.54
Training Phase: The training phase is carried out in T communication rounds. トレーニングフェーズ:トレーニングフェーズは、T通信ラウンドで行われます。 0.69
In every round t ≤ T , the server randomly selects a subset St of the overall client population and transmits to them the latest server models θR[i], which match their model prototype P (in round t = 1 only the pretrained feature extractor hP 0 is transmitted). 各ラウンド t ≤ T において、サーバはクライアント集団全体のサブセット St をランダムに選択し、モデルプロトタイプ P にマッチする最新のサーバモデル (ラウンド t = 1 で事前に訓練された特徴抽出器 hP 0 のみが送信される) をそれらに送信する。 0.85
Each selected client updates it’s local model by performing multiple steps of stochastic gradient descent (or it’s variants) on it’s local training data. 選択されたクライアントはそれぞれ、ローカルトレーニングデータ上で確率勾配降下(あるいは変種)の複数のステップを実行することで、ローカルモデルを更新します。 0.81
This results in an updated parameterization θi on every client, which is communicated to the server. その結果、すべてのクライアントでパラメータ化 θi が更新され、サーバに通信される。 0.75
After all clients have finished their local training, the server gathers the updated parameters θi. すべてのクライアントがローカルトレーニングを終えた後、サーバは更新されたパラメータ θi を収集する。 0.69
For each model prototype P the corresponding parameters are then aggregated by 各モデルプロトタイプPでは、対応するパラメータが集約されます。 0.70
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Figure 8. Illustration of the Dirichlet data splitting strategy used throughout the paper. 図8。 論文全体で使用されているディリクレデータ分割戦略のイラストレーション。 0.76
Dot size represents number of data points each client holds from any particular class. Dotサイズは、各クライアントが特定のクラスから保持するデータポイントの数を表す。 0.80
Lower values of α lead to more heterogeneous splits of data. αの低い値は、より異質なデータの分割につながる。 0.81
weighted averaging. Using the model averages as a starting point, for each prototype the server then distills a new model, based on the client’s certainty-weighted predictions. 平均的な重み付け モデル平均を出発点として使用すると、各プロトタイプに対して、サーバーはクライアントの確実な重み付け予測に基づいて新しいモデルを蒸留します。 0.70
D. Qualitative Comparison with Baseline D. ベースラインとの質的比較 0.74
Methods Table 4 gives a qualitative comparison between FEDAUX and the baseline methods FEDAVG and FEDDF. 方法 表4は、FEDAUXとFEDAVGとFEDDFのベースラインメソッドの質的な比較である。 0.78
• Compared with FEDAVG and FEDDF, FEDAUX additionally requires the clients to once solve the λ-strongly convex ERM (4). FEDAUX は FEDAVG や FEDDF と比較して、クライアントに λ-strongly convex ERM (4) を一度解く必要があります。 0.60
For this problem linearly convergent algorithms are known (Liu & Nocedal, 1989) and thus the computational overhead is negligible compared with the complexity of multiple rounds of locally training deep neural networks. この問題に対して線形収束アルゴリズムは知られており(Liu & Nocedal, 1989)、深層ニューラルネットワークを局所的に訓練する複数のラウンドの複雑さと比較して計算オーバーヘッドは無視できる。 0.80
• FEDAUX also adds computational load to the server for self-supervised pre-training and computation of the certainty scores si. • fedaux は自己教師付き事前学習のための計算負荷をサーバに追加し、確実度スコア si を計算します。
訳抜け防止モード: • fedaux が self のためにサーバに計算負荷を追加 -前編- 確実度スコアsiのトレーニングと計算。
0.70
As the server is typically assumed to have massively stronger computational resources than the clients, this can be neglected. サーバは通常、クライアントよりも強力な計算リソースを持つと仮定されるため、これを無視することができる。 0.71
• Once, in the preparation phase of FEDAUX, the scoring models w∗ i need to be communicated from the clients to the server. • FEDAUXの準備段階では、スコアリングモデル w∗ をクライアントからサーバに通信する必要があります。 0.61
The overhead of communicating these H-dimensional vectors, where H is the feature dimension, is negligible compared to the communication of the full models fi. H が特徴次元であるようなこれらの H-次元ベクトルを通信するオーバーヘッドは、フルモデル fi の通信と比べて無視できる。 0.83
• FEDAUX also requires the communication of the negative data D− and the feature extractor h0 from the server to the clients. • フェドーはまた、負のデータd−と特徴抽出器h0との通信をサーバからクライアントへ要求する。 0.72
The overhead of sending h0 is lower than sending the full model f, and thus the total downstream communication is increased by less than a factor of (T + 1)/T . h0の送信オーバーヘッドは、フルモデルfの送信よりも低く、したがって、総下流通信は(T + 1)/Tの要素よりも少なく増加される。 0.73
The overhead of sending D− is small (in our experiments |D−| = 0.2|Daux|) and can be further reduced by sending extracted features {|hP 0 (x)|x ∈ D−} instead of the full data. D−を送信するオーバーヘッドは小さく(我々の実験では |D−| = 0.2|Daux|)、全データの代わりに抽出された特徴 {|hP 0 (x)|x ∈ D−} を送ることでさらに削減できる。 0.74
For instance, in our experiments with ResNet-8 and 例えば resnet-8 と resnet 8 の実験では 0.79
CIFAR-100 we have |D−| = 12000 and hP 0 (x) ∈ R512, resulting in a total communication overhead of 12000 × 512 × 4B = 24.58MB for D−. CIFAR-100 は |D−| = 12000 と hP 0 (x) ∈ R512 を持ち、12000 × 512 × 4B = 24.58MB の総通信オーバーヘッドとなる。 0.85
For comparison the total communication overhead of once sending the parameters of ResNet-8 (needs to be done T times) is 19.79MB. 比較のために、ResNet-8(T倍)のパラメータを一度送信する際の通信オーバーヘッドは19.79MBである。 0.70
• Communicating the scoring models w∗ •スコアリングモデルw∗のコミュニケーション 0.76
i incurs additional privacy loss for the clients. クライアントに追加のプライバシー損失を負わせます。 0.78
Using our proposed sanitation mechanism this process is made (ε, δ)differentially private. 提案する衛生機構を用いて,この過程を(ε,δ)微分的にプライベートにする。 0.71
Our experiments in section 4.4 demonstrate that FEDAUX can achieve drastic performance improvements, even under conservative privacy constraints. セクション4.4の私たちの実験は、FEDAUXが保守的なプライバシーの制約下であっても、大幅なパフォーマンス改善を達成できることを示しています。 0.53
All empirical results reported are obtained with (ε, δ) differential privacy at ε = 0.1 and δ = 10−5. 報告されたすべての実験結果は (ε, δ) 微分プライバシー ε = 0.1 および δ = 10−5 で得られる。 0.79
• Finally, FEDAUX makes the additional assumption that unlabeled auxiliary data is available to the server. 最後に、FEDAUXは、ラベルなしの補助データがサーバーで利用できるという追加の仮定をします。 0.57
This assumption is made by all Federated Distillation methods including FEDDF. この仮定はFEDDFを含むすべてのFederated Distillation方法によってなされます。 0.61
E. Additional Results and Detailed Training E. 追加成果と詳細な訓練 0.82
Curves In this sections we give detailed training curves for the results shown in Figure 3. 曲線 このセクションでは、図3に示す結果の詳細なトレーニング曲線を示します。 0.74
As can be seen, in the highly non-iid setting at α ∈ {0.01, 0.04}, all methods exhibit convergence issues. このように、α ∈ {0.01, 0.04} における非常に非iidな設定では、すべての方法が収束問題を示す。 0.68
This behavior is well known in FL and is described for instance in (Zhao et al., 2018; Sattler et al., 2020c). この行動はFLでよく知られており、例えば(Zhao et al., 2018; Sattler et al., 2020c)で説明されている。 0.79
Notably, the performance of FEDAUX after one single communication round exceeds the maximum achieved performance of all other methods over the entire course of training. 特に、1回のコミュニケーションラウンド後のFEDAUXのパフォーマンスは、トレーニング全体の他のすべての方法の最大パフォーマンスを超えています。 0.73
At higher values of α ≥ 0.16 all methods train smoothly and validation performance asymptotically increases over the curse of training. α ≥ 0.16のより高い値では、全てのメソッドはスムーズにトレーニングし、トレーニングの呪いよりも漸近的に検証性能が向上する。 0.60
FEDAUX dominates all baseline methods at all communication rounds in the heterogeneous settings. FEDAUXは、異種設定のすべての通信ラウンドですべてのベースラインメソッドを支配します。 0.65
In the mostly iid-setting at α = 10.24 FEDAUX is en par with the pre-trained version of FEDDF. α = 10.24 の iid-setting では、FEDAUX は FEDDF の事前訓練版と同等である。 0.81
135791113151719Clien ts0123456789Labels=100.0135791113151719 Clients0123456789Lab els=10.0135791113151719C lients0123456789Labe ls=1.0135791113151719Cl ients0123456789Label s=0.1135791113151719Cl ients0123456789Label s=0.01 135791113151719Clien ts0123456789Labels=100.0135791113151717 19Clients0123456789L abels=1.01357911151719Clie nts0123456789Labels=0.11357911151717Clie nts0123456789Labels=0.01 0.08
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Figure 9. Detailed training curves for ResNet-8 trained on CIFAR-10, n = 80 Clients, C = 40%. 図9。 CIFAR-10で訓練されたResNet-8の詳細なトレーニング曲線、n = 80クライアント、C = 40%。 0.74
Figure 10. Detailed training curves for MobileNetv2 trained on CIFAR-10, n = 100 Clients, C = 40%. 図10。 CIFAR-10で訓練されたMobileNetv2の詳細なトレーニング曲線、n = 100クライアント、C = 40%。 0.76
Figure 11. Shufflenet trained on CIFAR-10, n = 100 Clients, C = 40%. 図11。 ShufflenetはCIFAR-10、n = 100クライアント、C = 40%のトレーニングを受けた。 0.75
Figure 12. Detailed training curves for mixed models trained on CIFAR-10. 図12。 CIFAR-10で訓練された混合モデルの詳細な訓練曲線。 0.71
20 each train ResNet8, MobileNetv2 and Shufflenet respectively. ResNet8、MobileNetv2、Shufflenetの各20列車。 0.79
050100Communication Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX050100Communi cation Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX050100Communi cation Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX050100Communi cation Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX 050100Communication Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX050100Communi cation Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX050100Communi cation Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX050100Communi cation Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.01050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.04050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.16050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =0.64050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =2.56050100Communicat ion Round0.10.20.30.40.5 0.60.70.80.9Accuracy =10.24FedAVGFedDFFedD F+PFedAUX 0.05
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Table 4. Qualitative Comparison: Complexity, communication overhead, privacy loss after T communication rounds as well as implicit assumptions made by different Federated Learning methods. 表4。 質的比較: 複雑性、通信オーバーヘッド、T通信ラウンド後のプライバシー損失、および異なるFederated Learningメソッドによる暗黙の仮定。 0.71
FEDAVG FEDDF FEDAVG FEDDF 0.85
FEDAUX phase) FEDAUX フェーズ) 0.76
(preparation FEDAUX (training phase) (準備) FEDAUX(トレーニングフェーズ) 0.77
Operations (Clients) Operations (Server) オペレーション(クライアント)オペレーション(サーバー) 0.74
Training Local (×T ) Model Averaging (×T ) 訓練 局所(×T)モデル平均化(×T) 0.80
Training Local (×T ) Model Averaging, Distillation (×T ) 訓練 局所(×T)モデル平均化, 蒸留(×T) 0.79
Communication Clients → Server Communication Server → Clients Privacy Loss 通信クライアント → サーバ通信サーバ → クライアントのプライバシ損失 0.84
Assumptions Model Parameters fi (×T ) Model Parameters f (×T ) Privacy loss of communicating fi (×T ) No Assumptions 推定 モデルパラメータ fi (×T ) モデルパラメータ f (×T ) 通信のプライバシー損失 fi (×T ) No Assumptions 0.63
Model Parameters fi (×T ) Model Parameters f (×T ) Privacy loss of communicating fi (×T ) Auxiliary Data モデルパラメータ fi (×T ) モデルパラメータ f (×T ) 通信のプライバシー損失 fi (×T ) 補助データ 0.79
Solve λ-strongly convex ERM (4) PreSelf-Supervised training of h0, Computation of certainty scores si Scoring Models w∗ λ-strongly convex ERM (4) 事前修正h0のトレーニング、確かさスコアの計算 si Scoring Models w∗ 0.85
i Negative Data D−, Feature Extractor h0 (ε, δ)-DP 私は 負データD−, 特徴抽出器h0(ε, δ)-DP 0.67
Local Training (×T ) Model Averaging, Distillation (×T ) 地方研修(×T) モデル平均化, 蒸留(×T) 0.74
Model Parameters (×T ) Model Parameters f (×T ) モデルパラメータ (×T ) モデルパラメータ f (×T ) 0.81
fi Privacy loss of communicating fi (×T ) fi 通信fi(×T)のプライバシ損失 0.77
Auxiliary Data Auxiliary Data 補助データ 補助データ 0.76
Table 5. Results on data sets with higher number of classes. テーブル5。 より多くのクラスを持つデータセットの結果。 0.76
Training ResNet-8 on CIFAR-100. CIFAR-100でResNet-8をトレーニング。 0.54
Accuracy achieved after T = 100 communication rounds by different Federated Distillation methods at different levels of data heterogeneity α. STL-10 is used as auxiliary data set. 異なるレベルのデータ不均一性αで異なるフェデレーション蒸留法によってT = 100通信ラウンド後に達成された精度。STL-10は補助データセットとして使用される。 0.64
FedAVG FedDF FedDF+P FedAUX FedAVG FedDF+P FedAUX 0.95
0.01 24.1 11.4 18.2 34.1 0.01 24.1 11.4 18.2 34.1 0.44
0.04 36.3 24.4 42.0 47.4 0.04 36.3 24.4 42.0 47.4 0.44
0.16 47.2 45.0 58.0 56.4 0.16 47.2 45.0 58.0 56.4 0.44
α 0.64 50.7 49.5 60.8 60.7 α 0.64 50.7 49.5 60.8 60.7 0.65
2.56 52.2 52.5 61.6 62.5 2.56 52.2 52.5 61.6 62.5 0.44
10.24 52.2 51.2 62.0 62.5 10.24 52.2 51.2 62.0 62.5 0.44
Table 5 compares performance of FEDAUX to baseline methods on the CIFAR-100 data set. 表5は、FEDAUXのパフォーマンスをCIFAR-100データセットのベースラインメソッドと比較する。 0.79
Again FEDAUX outperforms FEDAVG and FEDDF across all level of data heterogeneity α and shows superior performance to the improved FEDDF+P when data is highly heterogeneous at α = {0.01, 0.04}. FEDAUX は FEDAVG と FEDDF を全てのレベルのデータ不均一性 α で上回り、データが α = {0.01, 0.04} で高度に不均一である場合に FEDDF+P よりも優れた性能を示す。 0.69
Interestingly in this setting FEDDF+P manages to slightly outperform FEDAUX at medium data heterogeneity levels α = {0.16, 0.64}. 興味深いことに、この設定では FEDDF+P は、中程度のデータ不均質レベル α = {0.16, 0.64} で FEDAUX をわずかに上回っている。 0.49
This indicates that our proposed differentially private certainty scoring method may insufficiently approximate the true client certainty in this setting. このことは,提案手法が,本設定における真のクライアント確信度を十分近似できないことを示す。 0.72
We leave potential improvements of this mechanism for future work. このメカニズムの潜在的な改善は今後の作業に残します。 0.69
Table 6. Auxiliary data sets used in this study and their defining Wordnet IDs and data sets sizes. 表6。 本研究で使用される補助データセットとその定義するWordnet IDとデータセットサイズ。 0.80
Data set Imagenet Devices Imagenet Birds Imagenet Animals Imagenet Dogs Imagenet Invertebrates Imagenet Structures Dataset Imagenet Devices Imagenet Birds Imagenet Animals Imagenet Dogs Imagenet Invertebrates Imagenet Structures 0.78
Wordnet ID Dataset Size n03183080 n01503061 n00015388 n02084071 n01905661 n04341686 Wordnet ID サイズ n03183080 n01506061 n00015388 n02084071 n0 1905661 n0434168686 0.68
165747 76541 510530 147873 79300 74400 165747 76541 510530 147873 79300 74400 0.85
different structured subsets of the ImageNet data base (resized to 32 × 32 × 3). ImageNetデータベースの異なる構造化サブセット(32 × 32 × 3)。 0.62
Each subset is defined via a top-level Wordnet ID which is shown in Table 6. 各サブセットは、表6に示すトップレベルのWordnet IDを介して定義されます。 0.79
To obtain the images from the subset, we select all leaf-node IDs of the respective top-level IDs via the Imagenet API サブセットから画像を取得するために、Imagenet APIを介して各トップレベルIDのすべての葉ノードIDを選択する。 0.78
http://www.image-net .org/api/text/ http://www.image-net .org/api/text/ 0.28
wordnet.structure.hy ponym?wnid= wordnet.structure.hy ponym?wnid= 0.52
<top-levelID>&full=1 top-levelID>&full=1 0.66
F. Details on generating Imagenet subsets To simulate the effects of a wide variety of auxiliary data sets on the training performance of FEDAUX, we generate F. Imagenetサブセットの生成に関する詳細 FEDAUXのトレーニング性能に対する多種多様な補助データセットの影響をシミュレートするために、我々は、生成する。
訳抜け防止モード: f. imagenetサブセットの生成の詳細 フェドーの訓練性能に及ぼす多種多様な補助データセットの効果をシミュレートするために,我々は生成する
0.91
and then take only those classes from the full Imagenet data set, which match these leaf-node IDs. そして、これらのリーフノードIDに一致する完全なImagenetデータセットからクラスのみを取り出します。 0.74
Table 6 also shows the number of samples contained in every subset that was generated this way. 表6は、この方法で生成されたすべてのサブセットに含まれるサンプルの数も示します。 0.73
英語(論文から抽出)日本語訳スコア
G. Details on the Implementation and Results g. 実施及び結果の詳細 0.74
of the NLP Benchmarks NLPベンチマークの例 0.69
I. Domain-Adaptation-Th eoretic Motivation I.ドメイン適応理論モチベーション 0.47
for weighted ensemble distillation 加重アンサンブル蒸留のために 0.51
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
As mentioned in section 4.3 Evaluating FEDAUX on NLP Benchmarks we used TinyBERT as a model for our NLP experiments. NLPベンチマークのFEDAUXを評価するセクション4.3で述べたように、私たちはTinyBERTをNLP実験のモデルとして使用しました。
訳抜け防止モード: NLPベンチマークにおけるFEDAUXの評価 私たちはTinyBERTをNLP実験のモデルとして使用しました。
0.73
TinyBERT was pre-trained on Bookcorpus4 which led us to select the same dataset as a public dataset in order to follow the methodology outlined in section 3.3. TinyBERTはBookcorpus4で事前トレーニングされ、セクション3.3で概説された方法論に従うために、公開データセットと同じデータセットを選択しました。 0.60
As private datasets we chose the AG News dataset5 (Zhang et al., 2015), a topic classification dataset, and the english texts from the Multilingual Amazon Reviews Corpus6 (Keung et al., 2020), which we use for predicting how many stars a review gets. プライベートデータセットとして、トピック分類データセットであるAG News dataset5(Zhang et al., 2015)と、レビューの星の数を予測するために使用するMultilingual Amazon Reviews Corpus6(Keung et al., 2020)の英語テキストを選択しました。 0.83
The pre-trained weights and the tokenizer for TinyBERT are available at the corresponding repository7. TinyBERTのトレーニング済み重量とトークン化剤は、対応するリポジトリ7で利用可能である。 0.59
All experiments were conducted using  = 0.1 and δ = 10−5 as differential privacy parameters, 1 epoch for local training and distillation, ten clients and 100% participation rate as well as 160000 disjoint data points, which were sampled from BookCorpus, for the public and distillation datasets respectively. すべての実験は、差分プライバシパラメータとして φ = 0.1 と δ = 10−5 を使用して行われ、ローカルトレーニングと蒸留のための 1 画期的な、10 クライアントと 100% の参加率、および BookCorpus からサンプリングされた 160000 の非結合データポイントをそれぞれ公開および蒸留データセットとして使用しました。 0.69
Furthermore the ADAM optimizer with a learning rate of 10−5 was used for both local training and distillation. さらに, 学習速度10-5のADAMオプティマイザを局所訓練と蒸留の両方に使用した。 0.64
The regularization strength of the logistic regression classifier was set to 0.01. ロジスティック回帰分類器の正規化強度は0.01に設定された。 0.68
The batch size for Di, D− and Ddistill was 32. Di、D−、Ddistillのバッチサイズは32。 0.64
Detailed results for figure 4 are depicted in table 7. 図4の詳細な結果を表7に示します。 0.82
H. Hyperparameter Evaluation In this section we provide a detailed hyperparameter analysis for our proposed method and the baseline methods used in this study. H.ハイパーパラメータ評価 このセクションでは、提案手法および本研究で使用されるベースライン手法に関する詳細なハイパーパラメータ分析を提供します。 0.81
For all methods we use the very popular Adam optimizer for both local training and distillation. すべての方法において、ローカルトレーニングと蒸留の両方に非常に人気のあるアダムオプティマイザを使用します。 0.51
We vary the learning rate in {1e − 2, 1e − 3, 1e − 4, 1e − 5} for local training an distillation. 1e − 2, 1e − 3, 1e − 4, 1e − 5} で、局所的に蒸留を訓練するための学習速度を変化させる。
訳抜け防止モード: 学習率は { 1e − 2, 1e − 3 で変化します。 1e − 4, 1e − 5 } 蒸留を局所的に訓練する。
0.78
For FedPROX, we vary the parameter λprox, controlling the proximal term in the training objective in {1e − 2, 1e − 3, 1e − 4, 1e − 5}. FedPROX の場合、パラメータ λprox を変化させ、{1e − 2, 1e − 3, 1e − 4, 1e − 5} のトレーニング目標の近位項を制御します。 0.82
Figure 13 compares the maximum achieved accuracy after 50 communication rounds for the different methods and hyperparameter settings, for a FL setting with 20 clients training ResNet-8 on CIFAR-10 at a participation-rate of 40%. 図13は、CIFAR-10上で20のクライアントがResNet-8をトレーニングしたFL設定に対して、異なるメソッドとハイパーパラメータ設定のための50回の通信ラウンドの最大精度を比較します。 0.72
The auxiliary data set we use is STL-10. 補助的なデータセットは STL-10 です。 0.78
For each method and each level of data heterogeneity, table 8 shows the accuracy of the best performing combination of hyperparameters. 表8は、各方法と各レベルのデータ不均一性について、最適なハイパーパラメータの組み合わせの精度を示す。 0.80
As we can see FEDAUX matches the performance of the best performing methods in the iid setting with α = 100.0 and outperforms all other methods distinctively in the non-iid setting with α = 0.01. FEDAUX は α = 100.0 のイド設定における最高のメソッドのパフォーマンスと一致し、α = 0.01 の非イド設定において他のメソッドよりも顕著に優れる。 0.80
4https://huggingface .co/datasets/ 4https://huggingface .co/datasets/ 0.39
bookcorpus 5https://huggingface .co/datasets/ag_news 6https://huggingface .co/datasets/amazon_ ブックコーパス 5https://huggingface .co/datasets/ag_news 6https://huggingface .co/datasets/amazon_ 0.40
reviews_multi review_multi 0.55
7https://huggingface .co/huawei-noah/ 7https://huggingface .co/huawei-noah/ 0.34
TinyBERT_General_4L_ 312D TinyBERT_General_4L_ 312D 0.24
Domain adaptation theory (Mansour et al., 2008; BenDavid et al., 2010; Hoffman et al., 2018), and in particular with multiple sources, can be used in order to obtain generalization bounds for non-iid FL settings as it has been done in (Lin et al., 2020) for uniformly averaging of the client hypotheses to obtain a global hypothesis. ドメイン適応理論(Mansour et al., 2008; Ben David et al., 2010; Hoffman et al., 2018)は、特に複数のソースを用いて、クライアントの仮説を一様に平均化してグローバル仮説を得るため(Lin et al., 2020)で行われているように、非iid FL設定の一般化境界を得るために使用することができる。 0.78
From multiple-source adaptation theory we know that a distribution-weighte d combination of the client hypotheses is robust w.r.t. 複数ソース適応理論から、クライアント仮説の分布重み付け結合がロバスト w.r.t であることが分かる。 0.57
generalization for any target domain that is a convex combination of the source domains. ソースドメインの凸結合である任意のターゲットドメインの一般化。 0.66
However, exact information about the local distributions is rarely present in practical applications of FL and if it is, then directly sharing this information with the server in order to get a better global hypothesis is often not feasible in FL settings due to privacy restrictions. しかし、ローカル分布に関する正確な情報はFLの実用的なアプリケーションにはほとんど存在せず、もしそうであるならば、より良いグローバル仮説を得るためにこの情報をサーバーと直接共有することは、プライバシーの制限のためにFL設定では実現不可能であることが多い。 0.68
Nonetheless, settings with exact or approximate information about the local distributions (e.g. それにもかかわらず、地域分布に関する正確な情報または近似情報(例えば、)を持つ設定。 0.61
obtained by KDE) show us, what is possible if the server had access to this information and thus leads to benchmarks with a solid theoretic foundation to which we can compare our approach. KDEによって得られた)サーバーがこの情報にアクセスし、その結果、私たちのアプローチを比較することができる確固たる理論的基盤を持つベンチマークにつながる場合、何が可能であるかを示します。 0.65
Consequently, we aim at a weighting of the client’s local hypotheses based on a privacy-preserving local distribution estimation that respects both the theoretical generalization capabilities and the privacy restrictions in FL. その結果、理論的な一般化能力とFLのプライバシー制限の両方を尊重する、プライバシー保護されたローカル分布推定に基づいて、クライアントのローカル仮説の重み付けを目指しています。 0.69
With the help of a toy example in Fig. 図のおもちゃの例の助けを借りて。 0.67
14 we illustrates that the certainty scores si(·), i ∈ {1, . 14 は、確実性が si(·), i ∈ {1, であることを示す。 0.64
. . , n}, obtained via privacy-preserving logistic regression give a good approximation to the distribution-weights suggested by domain adaptation theory (Mansour et al., 2008), i.e. . . プライバシ保存ロジスティック回帰によって得られた n は、ドメイン適応理論 (mansour et al., 2008) によって示唆される分布重み付けに良い近似を与える。 0.84
we show that j sj(x) ≈ Di(x)/(cid:80) ご覧の通り j sj(x) ^ Di(x)/(cid:80) 0.67
si(x)/(cid:80) si(x)/(cid:80) 0.96
j Dj(x) for x ∈ X . j Dj(x) for x ∈ X 。 0.79
J. Proof of Theorem 1 Theorem 2. J。 Theorem 1 Theorem 2 の証明。 0.78
If R(·) is differentiable and 1-strongly convex and l is differentiable with |l(cid:48)(z)| ≤ 1 ∀z, then the (cid:96)2sensitivity ∆2(M) of the mechanism r(·) が微分可能で、1-強凸かつ l が |l(cid:48)(z)| ≤ 1 で微分可能であれば、その機構の (cid:96)2 の感性は 2(m) である。 0.68
M : Di (cid:55)→ arg min M : Di (cid:55)→ arg min 0.98
w J(w, h0, Di, D−) W J(w, h0, Di, D−) 0.85
(13) is at most 2(λ(|Di| + |D−|))−1. (13) 最大 2(λ(|Di| + |D−|))−1 である。 0.81
Proof. The proof is an adaptation of the result shown in (Chaudhuri et al., 2011). 証明。 この証明は (Chaudhuri et al., 2011) に示されている結果の適応である。 0.72
We have J(w, h0, Di, D−) =a J(w, h0, Di, D−) =a を持つ。 0.76
l(tx(cid:104)w, ˜h0(x)(cid:105)) + λR(w) l(tx(cid:104)w, yh0(x)(cid:105)) + λR(w) 0.92
(cid:88) x∈Di∪D− (cid:88) x∈DioD− 0.61
(14) with tx = 2(1x∈Di ) − 1 ∈ [−1, 1], a = (|Di| + |D−|)−1 and ˜h0(x) = h0(x)(maxx∈D−∪Di (cid:107)h0(x)(cid:1 07))−1. (14) with tx = 2(1x∈Di ) − 1 ∈ [−1, 1], a = (|Di| + |D−|)−1 and yh0(x) = h0(x)(maxx∈D−\Di (cid:107)h0(x)(cid:1 07))−1。 0.84
Let Di = {x1, .., xN} and D(cid:48) N} be two local data sets that differ in only one element. Di = {x1, .., xN} と D(cid:48) N} を 1 つの要素のみで異なる2つの局所データセットとする。 0.86
For arbitrary D− 任意の D− に対して 0.51
i = {x1, .., x(cid:48) i = {x1, .., x(cid:48) 0.99
英語(論文から抽出)日本語訳スコア
err 翻訳エラー 0.00
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
Table 8. Best performing hyperparameter combinations for each method when training ResNet8 with n = 20 clients for 50 communication rounds at a participation rate of C = 40%. 表8。 resnet8をn = 20クライアントでトレーニングする場合、各メソッドのハイパーパラメータの組み合わせが最良で、参加率はc = 40%である。 0.75
Both local training and distillation is performed for 1 epoch. 地域訓練と蒸留は1世紀に向けて行われる。 0.63
Methods sorted by top accuracy. 最高精度で並べ替える方法。 0.60
Method FedPROX+P FedAUX FedDF+P FedAVG+P FedBE FedPROX FedAVG FedDF FedAUX FedPROX+P FedDF+P FedPROX FedAVG+P FedDF FedBE FedAVG FedPROX+P FedAUX FedDF+P FedAVG+P FedADBE FedPROX FedDF FedPROX+P FedDF+P FedPROX FedAVG+P FedDF FedDF FedAVG 0.77
100 Alpha Local LR Distill LR λ FedProx Accuracy 0.8946 0.8941 0.8936 0.8924 0.8246 0.8232 0.8228 0.8210 0.7501 0.6122 0.4786 0.4145 0.3929 0.3481 0.3196 0.2770 100 Alpha Local LR Distill LR λ FedProx Accuracy 0.8946 0.8941 0.8936 0.8924 0.8246 0.8232 0.8228 0.8210 0.7501 0.6122 0.4786 0.4145 0.3929 0.3196 0.2770 0.70
1e-05 1e-051e-051e-05 0.00010.0010.001 0.001 - 1e-05 1e-051e-05 0.00010.0010.001 0.001- 0.30
0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.01 0.001 0.001 0.001 0.001 0.001 0.0001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.01 0.001 0.001 0.001 0.001 0.001 0.0001 0.41
0.00010.0010.010.01- 0.00010.0010.010.01- 0.21
0.01 Figure 14. Left: Toy example with 3 clients holding data sampled from multivariate Gaussian distributions D1, D2 and D3. 0.01 図14。 左: 多変量ガウス分布d1, d2, d3からサンプリングされたデータを3つのクライアントが保持するトイ例。 0.65
All clients solve optimization problem J by contrasting their local data with the public negative data, to obtain scoring models s1, s2, s3 respectively. すべてのクライアントは、各々スコアリングモデル s1, s2, s3 を得るために、ローカルデータをパブリックネガティブデータと対比して最適化問題 J を解決する。 0.71
As can be seen in the plots to the right, our proposed scoring method approximates the robust weights proposed in (Mansour et al., 2008) 右のプロットで見られるように,提案手法はマンスールらによって提案された頑丈な重みを近似する(Mansour et al., 2008)。 0.82
as it holds si(x)/(cid:80) si(x)/(cid:80)を持つため 0.84
j sj(x) ≈ Di(x)/(cid:80) j sj(x) ^ Di(x)/(cid:80) 0.93
j Dj(x) on the support of the data distributions. データ分散のサポートについて、j Dj(x)。 0.69
and we have m(w) = J(w, h0, Di, D−) − J(w, h0, D(cid:48) そして 我々は m(w) = J(w, h0, Di, D−) − J(w, h0, D(cid:48) 0.81
i, D−) (18) i, D−) (18) 0.92
Since m(w) = a(l(tx(cid:104)w, h0(xN )(cid:105)) − l(tx(cid:104)w, h0(x(cid:48) 以来 m(w) = a(l(tx(cid:104)w, h0(xN )(cid:105)) − l(tx(cid:104)w, h0(x(cid:48) 0.81
N )(cid:105))) (19) N (cid:105)) (19) 0.78
∇m(w) = a(txl(cid:48)(tx(cid :104)w, h0(xN )(cid:105))h0(xN )T− N )T ) シュム(w) = a(txl(cid:48)(tx(cid :104)w, h0(xN )(cid:105))h0(xN )T−N )T ) 0.92
txl(cid:48)(tx(cid:1 04)w, h0(x(cid:48) txl(cid:48)(tx(cid:1 04)w,h0(x(cid:48) 0.84
N )(cid:105))h0(x(cid: 48) N )(cid:105))h0(x(cid: 48) 0.85
(20) (21) 864202468864202468Ne gative DataClient 1Client 2Client 3505505s1(x)/jsj(x)0 .20.40.60.8505505s2( x)/jsj(x)0.20.40.60. 8505505s3(x)/jsj(x)0 .20.40.60.8505505D1( x)/jDj(x)0.00.20.40. 60.8505505D2(x)/jDj( x)0.00.20.40.60.8505 505D3(x)/jDj(x)0.00. 20.40.60.8 (20) (21) 864202468864202468Ne gative DataClient 1Client 3505505s1(x)/jsj(x)0 .20.40.60.8505505s2( x)/jsj(x)0.20.40.60. 8505505s3(x)/jsj(x)0 .20.40.40.8505505D1( x)/jDj(x)0.00.20.40. 505505D3(x)/jDj(x)0. 00.20.40.60.8505505D 3(x)/jDj(x)0.00.20.4 0.40.40.60.60.60.8。 0.66
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
FEDAUX to outperform baseline methods on heterogeneous data, they reveal only fuzzy, indirect information about the local training data. FEDAUXは、異種データに対するベースラインメソッドを上回るため、ローカルトレーニングデータに関するファジィで間接的な情報のみを明らかにします。 0.69
For instance, client 1, which in this example is mainly holding data from the airplane class, assigns the highest scores to pictures in the auxiliary data set that show dogs in cars or in front of blue skies. 例えば、この例では、主に飛行機のクラスからのデータを保持しているクライアント1は、車や青い空の前で犬を示す補助データセット内の写真に最高スコアを割り当てます。 0.79
From this it could be concluded that a majority of the clients training data contains man-made objects in front of blue backgrounds, but direct exposure of single data points is improbable. このことから、トレーニングデータの大多数は青い背景の前に人工のオブジェクトが含まれていると結論付けることができるが、単一のデータポイントを直接露出することは不可能である。 0.70
Note that there exist also many FL scenarios in which the server is assumed to be trustworthy, and only the final trained model which is released to the public needs to be privately sanitized. サーバが信頼できると仮定される多くのFLシナリオがあり、パブリックにリリースされる最終的なトレーニングモデルのみをプライベートに衛生化する必要があることに注意してください。 0.70
In these settings, direct inspection of certainty scores by outside adversaries is not possible and thus privacy loss through certainty scores is even less critical. これらの設定では、外部の敵対者による確実性スコアの直接検査は不可能であり、確実性スコアによるプライバシーの損失はさらに少なくなります。 0.63
Future work could also explore the use encryptionbased techniques for secure weighted aggregation of client predictions. 今後の作業では、クライアント予測の安全な重み付けアグリゲーションのための暗号化ベースの技術の使用も検討できる。 0.56
which can be bounded in norm ノルムで境界づけられる 0.39
(cid:107)∇m(w)(cid:107) = a((cid:107)h0(xN ) − h0(x(cid:48) m(w)(cid:107) = a((cid:107)h0(xN)) − h0(x(cid:48) 0.91
N )(cid:107)) ≤ a((cid:107)h0(xN )(cid:107) + (cid:107)h0(x(cid:48 ) ≤ 2a N )(cid:107)) ≤ a((cid:107)h0(xN )(cid:107) + (cid:107)h0(x(cid:48 ) ≤ 2a 0.84
N )(cid:107)) N(cid:107) 0.76
as tx ∈ [−1, 1], |l(cid:48)(x)| ≤ 1 and (cid:107)˜h0(x)(cid:107) = (cid:107)h0(x)( max tx ∈ [−1, 1], |l(cid:48)(x)| ≤ 1 および (cid:107) sh0(x)(cid:107) = (cid:107)h0(x) max として 0.90
x∈Di∪D− h0(x))−1(cid:107) ≤ 1. x)D-h0(x))−1(cid:107) ≤ 1。 0.68
(22) (23) (24) (22) (23) (24) 0.85
(25) Furthermore, since n(w) is λ-strongly convex it follows by Shalev-Schwartz inequality (∇n(w∗) − ∇n(v∗))T (w∗ − v∗) ≥ λ(cid:107)w∗ − v∗(cid:107)2. (25) さらに、n(w) は λ-強凸であるため、シャレフ=シュワルツの不等式 (n(w∗) − yn(v∗))T (w∗ − v∗) ≥ λ(cid:107)w∗ − v∗(cid:107)2)2 で従う。 0.75
(26) Combining this result with Cauchy-Schwartz inequality and ∇m(v∗) = ∇n(v∗) − ∇n(w∗) yields (cid:107)w∗ − v∗(cid:107)(cid:107)∇m(v∗)(cid:107) ≥ (w∗ − v∗)T∇m(v∗) (26) この結果とコーシー=シュワルツの不等式と結合し、(cid:107)w∗ − v∗(cid:107)(cid:107)\m (v∗)(cid:107) ≥ (w∗ − v∗)T\m(v∗) が成り立つ(cid:107)w∗ − v∗)。 0.82
(27) = (w∗ − v∗)T (∇n(v∗) − ∇n(w∗)) (28) (29) (27) = (w∗ − v∗)T(sn(v∗) − sn(w∗)) (28) (29) 0.84
≥ λ(cid:107)w∗ − v∗(cid:107)2 ≥ λ(cid:107)w∗ − v∗(cid:107)2 0.85
Thus (cid:107)w∗ − v∗(cid:107) ≤ (cid:107)∇m(v∗)(cid:107) したがって (cid:107)w∗ − v∗(cid:107) ≤ (cid:107)\m(v∗)(cid:107) 0.77
λ ≤ 2a λ (30) λ ≤ 2a λ (30) 0.88
which concludes the proof. K. Empirical Privacy Evaluation Our proposed method is provably differentially private and achieves state-of-the-art performance, even at very conservative privacy levels. 証明を結論づけます K.実証的プライバシ評価 提案手法は, 極めて保守的なプライバシレベルであっても, 確実にプライベートであり, 最先端のパフォーマンスを達成する。 0.58
If not explicitly stated otherwise, all results presented in this study were achieved with (ε, δ)differentially private certainty scores at conservative privacy parameters δ = 10−5 and ε = 0.1. この研究で示されるすべての結果は、保守的プライバシーパラメータ δ = 10−5 と ε = 0.1 において、(ε, δ) 微分的プライベート確実性スコアで達成された。 0.71
In this section, we additionally evaluate the privacy properties of the certainty scores empirically. このセクションでは、実証的な確実性スコアのプライバシー特性をさらに評価します。 0.69
Figure 15 shows, for four different clients, the 5 images x from the distillation data set Ddistill, which were assigned the highest certainty score si(x) by the client’s scoring model w∗ i (left column). 図15は、4つの異なるクライアントに対して、蒸留データセットDdistillの5つの画像xを示し、クライアントのスコアリングモデルw∗ i(左カラム)により、最も確実なスコアsi(x)が割り当てられた。 0.76
Displayed next to the images are their 4 nearest neighbors x(cid:48) in feature space which maximize the cosine-similarity 画像の横に表示されているのは、コサイン相似性を最大化する特徴空間の4つの最も近い隣人 x(cid:48) である。 0.53
sim(x, x(cid:48)) = sim(x, x(cid:48)) = 1.00
(cid:104)h0(x), h0(x(cid:48))(cid:10 5) (cid:107)h0(x)(cid:1 07)(cid:107)h0(x(cid :48))(cid:107) . (cid:104)h0(x), h0(x(cid:48))(cid:10 5) (cid:107)h0(x)(cid:1 07)(cid:107)h0(x(cid :48))(cid:107)。 0.79
(31) In this example the clients hold non-iid subsets of CIFAR10 (α = 0.01) and the ”Imagenet Dogs” (c.f. (31) この例では、クライアントはCIFAR10 (α = 0.01) と "Imagenet Dogs" (c.f) の非idサブセットを保持する。 0.80
Appendix F) data set is used as auxiliary data. Appendix F)データセットを補助データとして使用する。 0.84
Using weighted ensemble distillation in this setting improves training performance from 48.46% to 75.59%. この設定で加重アンサンブル蒸留を用いることで、トレーニング性能は48.46%から75.59%に向上する。 0.60
As we can see, while certainty scores are able to inform the distillation process and allow ご覧のように、確実なスコアは蒸留プロセスに通知し、許容することができる。 0.65
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
(a) Client 1: Images x from the distill data set with the highest scores si(x) and their nearest neighbors in feature space in the local data set Di. (a)クライアント1:ローカルデータセットDi内の特徴空間における最高スコアsi(x)とその最も近い隣人を含む蒸留データセットからxを撮像する。 0.79
(b) Client 2: Images x from the distill data set with the highest scores si(x) and their nearest neighbors in feature space in the local data set Di. (b)クライアント2:ローカルデータセットDi内の特徴空間における最高スコアsi(x)とその最も近い隣人を含む蒸留データセットからxを撮像する。 0.79
(c) Client 3: Images x from the distill data set with the highest scores si(x) and their nearest neighbors in feature space in the local data set Di. (c)クライアント3:ローカルデータセットDi内の特徴空間における最高スコアsi(x)とその最も近い隣人を含む蒸留データセットからxを撮像する。 0.80
(d) Client 4: Images x from the distill data set with the highest scores si(x) and their nearest neighbors in feature space in the local data set Di. (d)クライアント4:ローカルデータセットDi内の特徴空間における最高スコアsi(x)とその最も近い隣人を含む蒸留データセットからxを撮像する。 0.81
Figure 15. Data points x from the auxiliary data set which were assigned the highest scores si(x) and their nearest neighbors in the data of 4 randomly selected clients Di. 図15。 4つのランダムに選択されたクライアントDiのデータで、最も高いスコアsi(x)と最も近い隣人に割り当てられた補助データセットからのデータポイントx。 0.76
Clients hold non-iid subsets from the CIFAR-10 data set (α = 0.01). クライアントはCIFAR-10データセット(α = 0.01)から非iidサブセットを保持する。 0.68
Auxiliary data used is ImageNet Dogs (cf. 補助的なデータは ImageNet Dogs (cf) である。 0.69
Appendix F). No differential privacy is used. 付録F)。 差分プライバシーは使用されない。 0.66
Score: 0.97561-NN in loc. スコア:0.97561-NN。 0.66
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.9662Score: 0.9640Score: 0.9248Score: 0.8860Score: 0.95621-NN in loc. dataScore: 0.9662Score: 0.9640Score: 0.9248Score: 0.8860Score: 0.95621-NN in loc 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.9375Score: 0.9295Score: 0.9142Score: 0.9005Score: 0.95251-NN in loc. dataScore: 0.9375Score: 0.9295Score: 0.9142Score: 0.9005Score: 0.95251-NN in loc 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.9180Score: 0.9167Score: 0.8994Score: 0.8877Score: 0.98671-NN in loc. dataScore: 0.9180Score: 0.9167Score: 0.8994Score: 0.8877Score: 0.98671-NN in loc 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.9571Score: 0.9253Score: 0.8883Score: 0.8562 dataScore: 0.9571Score: 0.9253Score: 0.8883Score: 0.8562 0.56
英語(論文から抽出)日本語訳スコア
FEDAUX: Leveraging Unlabeled Auxiliary Data in Federated Learning FEDAUX: フェデレーション学習におけるラベルなし補助データを活用する 0.69
(a) Images from the distill data set with the higher scores and their nearest neighbors in feature space in the local data set of client 1. (a)クライアント1のローカルデータセットにおいて、高得点と最寄りの隣接点が特徴空間にある蒸留データセットからの画像。 0.80
(b) Images from the distill data set with the higher scores and their nearest neighbors in feature space in the local data set of client 2. (b)クライアント2のローカルデータセットにおいて、高得点とその隣接点を特徴空間に配置した蒸留データからの画像。 0.82
(c) Images from the distill data set with the higher scores and their nearest neighbors in feature space in the local data set of client 3. (c)クライアント3のローカルデータセットにおいて、高得点と最寄りの隣接点が特徴空間にある蒸留データセットからの画像。 0.80
(d) Images from the distill data set with the higher scores and their nearest neighbors in feature space in the local data set of client 4. (d)クライアント4のローカルデータセットにおいて、高得点と最寄りの隣接点とを備えた蒸留データセットからの画像を特徴空間に配置する。 0.82
Figure 16. Data points x from the auxiliary data set which were assigned the highest scores si(x) and their nearest neighbors in the data of 4 randomly selected clients Di. 図16。 4つのランダムに選択されたクライアントDiのデータで、最も高いスコアsi(x)と最も近い隣人に割り当てられた補助データセットからのデータポイントx。 0.76
Clients hold non-iid subsets from the CIFAR-10 data set (α = 0.01). クライアントはCIFAR-10データセット(α = 0.01)から非iidサブセットを保持する。 0.68
Auxiliary data used is ImageNet Dogs (cf. 補助的なデータは ImageNet Dogs (cf) である。 0.69
Appendix F). Scores obtained with differential privacy at ε = 0.1, δ = 10−5. 付録F)。 ε = 0.1, δ = 10−5 で微分プライバシーで得られるスコア。 0.65
Score: 0.95891-NN in loc. スコア:0.95891-NN。 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.9155Score: 0.9124Score: 0.9073Score: 0.8735Score: 0.90631-NN in loc. dataScore: 0.9155Score: 0.9124Score: 0.9073Score: 0.8735Score: 0.90631-NN in loc. 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.8994Score: 0.8042Score: 0.7958Score: 0.7640Score: 0.79711-NN in loc. dataScore: 0.8994Score: 0.8042Score: 0.7958Score: 0.7640Score: 0.79711-NN in loc 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.7801Score: 0.7187Score: 0.7076Score: 0.6443Score: 0.80651-NN in loc. dataScore: 0.7801Score: 0.7187Score: 0.7076Score: 0.6443Score: 0.80651-NN in loc. 0.57
data2-NN in loc. data2-NN in loc 0.79
data3-NN in loc. data3-NN in loc 0.77
data4-NN in loc. data4-NN in loc 0.77
dataScore: 0.7825Score: 0.7457Score: 0.6496Score: 0.6451 dataScore: 0.7825Score: 0.7457Score: 0.6496Score: 0.6451 0.56
                                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。