論文の概要: Understanding Unintended Memorization in Federated Learning
- arxiv url: http://arxiv.org/abs/2006.07490v1
- Date: Fri, 12 Jun 2020 22:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 02:05:51.116991
- Title: Understanding Unintended Memorization in Federated Learning
- Title(参考訳): フェデレーション学習における意図しない記憶の理解
- Authors: Om Thakkar, Swaroop Ramaswamy, Rajiv Mathews, Fran\c{c}oise Beaufays
- Abstract要約: フェデレートラーニングの異なるコンポーネントが意図しない暗記を減らす上で重要な役割を担っていることを示す。
また,意図しない記憶の少ないモデルにおいて,強いユーザレベルの差分プライバシ保証によるトレーニングが結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 5.32880378510767
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works have shown that generative sequence models (e.g., language
models) have a tendency to memorize rare or unique sequences in the training
data. Since useful models are often trained on sensitive data, to ensure the
privacy of the training data it is critical to identify and mitigate such
unintended memorization. Federated Learning (FL) has emerged as a novel
framework for large-scale distributed learning tasks. However, it differs in
many aspects from the well-studied central learning setting where all the data
is stored at the central server. In this paper, we initiate a formal study to
understand the effect of different components of canonical FL on unintended
memorization in trained models, comparing with the central learning setting.
Our results show that several differing components of FL play an important role
in reducing unintended memorization. Specifically, we observe that the
clustering of data according to users---which happens by design in FL---has a
significant effect in reducing such memorization, and using the method of
Federated Averaging for training causes a further reduction. We also show that
training with a strong user-level differential privacy guarantee results in
models that exhibit the least amount of unintended memorization.
- Abstract(参考訳): 近年の研究では、生成シーケンスモデル(例えば言語モデル)は、トレーニングデータに希少またはユニークなシーケンスを記憶する傾向があることが示されている。
有用なモデルは、しばしば機密データに基づいて訓練されるため、トレーニングデータのプライバシーを確保するために、意図しない記憶の特定と緩和が重要である。
federated learning (fl) は大規模分散学習タスクのための新しいフレームワークとして登場した。
しかし、すべてのデータが中央サーバに格納される、よく研究された中央学習設定とは、多くの点で異なる。
本稿では,訓練されたモデルの意図しない記憶に及ぼす標準FLの異なる成分の影響を,中心的な学習環境と比較した公式な研究を開始する。
その結果,FLの異なる成分が,意図しない記憶の減少に重要な役割を果たしていることが示唆された。
具体的には,FLの設計によって生じるユーザによるデータのクラスタリングが,そのような記憶の減少に重要な影響を及ぼし,トレーニングにフェデレーション平均化法を用いることで,さらなる削減が期待できる。
また,ユーザレベルのディファレンシャルプライバシの強いトレーニングは,意図しない記憶量が最も少ないモデルに結果をもたらすことを示す。
関連論文リスト
- Understanding Memorisation in LLMs: Dynamics, Influencing Factors, and Implications [14.818820873377303]
本研究では,大規模言語モデル (LLM) がどの程度トレーニングデータを記憶しているかについて検討する。
ランダムな文字列に対して繰り返しLLMを露呈する実験的なフレームワークを作成する。
我々は,一部の文字列を記憶しやすくする要因を特定し,記憶における局所的な接頭辞の役割とグローバルな文脈を同定する。
論文 参考訳(メタデータ) (2024-07-27T14:00:21Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - MultiConfederated Learning: Inclusive Non-IID Data handling with Decentralized Federated Learning [1.2726316791083532]
Federated Learning (FL) は、機密性のある臨床機械学習のようなユースケースを可能にするための、顕著なプライバシ保護技術として登場した。
FLはデータを所有するリモートデバイスによってトレーニングされたモデルを集約することで動作する。
非IIDデータを扱うために設計された分散FLフレームワークであるMultiConfederated Learningを提案する。
論文 参考訳(メタデータ) (2024-04-20T16:38:26Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Don't Memorize; Mimic The Past: Federated Class Incremental Learning
Without Episodic Memory [36.4406505365313]
本稿では,過去のデータの一部を格納するのではなく,生成モデルを用いて過去の分布からサンプルを合成する,連邦化クラスインクリメンタルラーニングのためのフレームワークを提案する。
生成モデルは、クライアントからデータを要求することなく、各タスクの最後にデータフリーのメソッドを使用してサーバ上でトレーニングされる。
論文 参考訳(メタデータ) (2023-07-02T07:06:45Z) - When Do Curricula Work in Federated Learning? [56.88941905240137]
カリキュラム学習は非IID性を大幅に軽減する。
クライアント間でデータ配布を多様化すればするほど、学習の恩恵を受けるようになる。
本稿では,クライアントの現実的格差を生かした新しいクライアント選択手法を提案する。
論文 参考訳(メタデータ) (2022-12-24T11:02:35Z) - Towards Differential Relational Privacy and its use in Question
Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。
我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。
質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文 参考訳(メタデータ) (2022-03-30T22:59:24Z) - Comparative assessment of federated and centralized machine learning [0.0]
Federated Learning(FL)は、デバイス間でフェデレーションされたデータによってトレーニングが行われる、プライバシ保護機械学習スキームである。
本稿では,非IID分散データの性質から,フェデレーション学習に影響を及ぼす諸要因について論じる。
トレーニング対象のモデルサイズが合理的に大きくない場合には,フェデレーション学習がコスト面で有利であることを示す。
論文 参考訳(メタデータ) (2022-02-03T11:20:47Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Memory-Associated Differential Learning [10.332918082271153]
メモリ関連微分学習(MAD)と呼ばれる新しい学習パラダイムを提案する。
まず,すべてのトレーニングデータを記憶するためにメモリと呼ばれる追加コンポーネントを導入する。次に,差分方程式といくつかのサンプリング手法の組み合わせによる特徴の関連性だけでなく,ラベルの違いも学習する。
評価フェーズでは,記憶された事実と学習した相違点および関連点を幾何学的に意味のある方法で参照することにより,未知のラベルを予測する。
論文 参考訳(メタデータ) (2021-02-10T03:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。