論文の概要: SoK: Memorisation in machine learning
- arxiv url: http://arxiv.org/abs/2311.03075v1
- Date: Mon, 6 Nov 2023 12:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:23:28.168927
- Title: SoK: Memorisation in machine learning
- Title(参考訳): SoK: 機械学習における記憶
- Authors: Dmitrii Usynin, Moritz Knolle, Georgios Kaissis
- Abstract要約: 個々のデータサンプルが機械学習モデルに与える影響を定量化することは、オープンな研究課題である。
本研究は,MLにおける暗記に関するこれまでの定義と視点を幅広く統合するものである。
モデル一般化との相互作用と,これらの現象がデータプライバシに与える影響について論じる。
- 参考スコア(独自算出の注目度): 5.563171090433323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantifying the impact of individual data samples on machine learning models
is an open research problem. This is particularly relevant when complex and
high-dimensional relationships have to be learned from a limited sample of the
data generating distribution, such as in deep learning. It was previously shown
that, in these cases, models rely not only on extracting patterns which are
helpful for generalisation, but also seem to be required to incorporate some of
the training data more or less as is, in a process often termed memorisation.
This raises the question: if some memorisation is a requirement for effective
learning, what are its privacy implications? In this work we unify a broad
range of previous definitions and perspectives on memorisation in ML, discuss
their interplay with model generalisation and their implications of these
phenomena on data privacy. Moreover, we systematise methods allowing
practitioners to detect the occurrence of memorisation or quantify it and
contextualise our findings in a broad range of ML learning settings. Finally,
we discuss memorisation in the context of privacy attacks, differential privacy
(DP) and adversarial actors.
- Abstract(参考訳): 個々のデータサンプルが機械学習モデルに与える影響を定量化することは、オープンな研究課題である。
これは、深層学習のようなデータ生成分布の限られたサンプルから、複雑で高次元の関係を学習する必要がある場合に特に関係がある。
これらの場合、モデルは一般化に役立つパターンを抽出するだけでなく、しばしば記憶と呼ばれるプロセスにおいて、トレーニングデータの一部を多かれ少なかれ組み込むことも要求されるように思われる。
もし暗記が効果的な学習の要件であるなら、そのプライバシーはどんな意味を持つのだろうか?
本研究は,MLにおける記憶に関するさまざまな定義と視点を統一し,モデル一般化との相互作用と,これらの現象がデータプライバシに与える影響について論じる。
さらに,実践者が暗記の発生を検知したり,定量化したりできる手法を体系化し,幅広いML学習環境における知見の文脈化を行う。
最後に,プライバシアタック,ディファレンシャルプライバシ(dp)および敵対的アクタの文脈における記憶について論じる。
関連論文リスト
- Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Measures of Information Reflect Memorization Patterns [53.71420125627608]
異なるニューロンの活性化パターンの多様性は、モデル一般化と記憶の反映であることを示す。
重要なことは、情報組織が記憶の2つの形態を指していることである。
論文 参考訳(メタデータ) (2022-10-17T20:15:24Z) - On the Privacy Effect of Data Enhancement via the Lens of Memorization [20.27379983653372]
我々は,記憶化という新たな視点からプライバシを調査することを提案する。
機械学習モデルの3つの重要な特性間の関係について、非自明な知見を公表する。
論文 参考訳(メタデータ) (2022-08-17T13:02:17Z) - Measuring Forgetting of Memorized Training Examples [80.9188503645436]
機械学習モデルは、トレーニングデータ記憶と様々な形態記憶の2つの矛盾する現象を示す。
特定の例では、モデルは特定のトレーニングに過度に適合し、最終的にはプライバシー攻撃の影響を受けやすい。
我々は、決定論的に忘れる例を潜在的な説明として識別し、モデルが時間とともに訓練された例を経験的に忘れないことを示す。
論文 参考訳(メタデータ) (2022-06-30T20:48:26Z) - Towards Differential Relational Privacy and its use in Question
Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。
我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。
質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文 参考訳(メタデータ) (2022-03-30T22:59:24Z) - Leveraging Adversarial Examples to Quantify Membership Information
Leakage [30.55736840515317]
パターン認識モデルにおけるメンバシップ推論の問題に対処する新しいアプローチを開発する。
この量はトレーニングデータに属する可能性を反映していると我々は主張する。
我々の手法は、最先端の戦略に匹敵する、あるいは上回る性能を発揮する。
論文 参考訳(メタデータ) (2022-03-17T19:09:38Z) - Bounding Information Leakage in Machine Learning [26.64770573405079]
本稿では,情報漏洩の基本的な境界について検討する。
最悪の会員推論攻撃の成功率を特定し、拘束します。
感度の高い属性とモデルパラメータの間の相互情報の境界を導出する。
論文 参考訳(メタデータ) (2021-05-09T08:49:14Z) - Quantifying and Mitigating Privacy Risks of Contrastive Learning [4.909548818641602]
我々は、会員推定と属性推論のレンズを通して、コントラスト学習の最初のプライバシ分析を行う。
その結果,コントラストモデルではメンバシップ推論攻撃に弱いが,教師付きモデルに比べて属性推論攻撃に弱いことが示唆された。
この状況を改善するため,プライバシ保護型コントラスト学習機構であるTalosを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:38:11Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。