論文の概要: SoK: Memorisation in machine learning
- arxiv url: http://arxiv.org/abs/2311.03075v1
- Date: Mon, 6 Nov 2023 12:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 14:23:28.168927
- Title: SoK: Memorisation in machine learning
- Title(参考訳): SoK: 機械学習における記憶
- Authors: Dmitrii Usynin, Moritz Knolle, Georgios Kaissis
- Abstract要約: 個々のデータサンプルが機械学習モデルに与える影響を定量化することは、オープンな研究課題である。
本研究は,MLにおける暗記に関するこれまでの定義と視点を幅広く統合するものである。
モデル一般化との相互作用と,これらの現象がデータプライバシに与える影響について論じる。
- 参考スコア(独自算出の注目度): 5.563171090433323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantifying the impact of individual data samples on machine learning models
is an open research problem. This is particularly relevant when complex and
high-dimensional relationships have to be learned from a limited sample of the
data generating distribution, such as in deep learning. It was previously shown
that, in these cases, models rely not only on extracting patterns which are
helpful for generalisation, but also seem to be required to incorporate some of
the training data more or less as is, in a process often termed memorisation.
This raises the question: if some memorisation is a requirement for effective
learning, what are its privacy implications? In this work we unify a broad
range of previous definitions and perspectives on memorisation in ML, discuss
their interplay with model generalisation and their implications of these
phenomena on data privacy. Moreover, we systematise methods allowing
practitioners to detect the occurrence of memorisation or quantify it and
contextualise our findings in a broad range of ML learning settings. Finally,
we discuss memorisation in the context of privacy attacks, differential privacy
(DP) and adversarial actors.
- Abstract(参考訳): 個々のデータサンプルが機械学習モデルに与える影響を定量化することは、オープンな研究課題である。
これは、深層学習のようなデータ生成分布の限られたサンプルから、複雑で高次元の関係を学習する必要がある場合に特に関係がある。
これらの場合、モデルは一般化に役立つパターンを抽出するだけでなく、しばしば記憶と呼ばれるプロセスにおいて、トレーニングデータの一部を多かれ少なかれ組み込むことも要求されるように思われる。
もし暗記が効果的な学習の要件であるなら、そのプライバシーはどんな意味を持つのだろうか?
本研究は,MLにおける記憶に関するさまざまな定義と視点を統一し,モデル一般化との相互作用と,これらの現象がデータプライバシに与える影響について論じる。
さらに,実践者が暗記の発生を検知したり,定量化したりできる手法を体系化し,幅広いML学習環境における知見の文脈化を行う。
最後に,プライバシアタック,ディファレンシャルプライバシ(dp)および敵対的アクタの文脈における記憶について論じる。
関連論文リスト
- A Geometric Framework for Understanding Memorization in Generative Models [11.263296715798374]
近年の研究では、深層生成モデルにより、デプロイ時にトレーニングデータポイントを記憶・再生することが可能であることが示されている。
これらの知見は、特に暗記によって引き起こされる法的およびプライバシー上のリスクを考慮して、生成モデルのユーザビリティを疑問視する。
本稿では, 多様体の暗記仮説(MMH)を, 暗記を推論する明快な言語として活用する幾何学的枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-31T18:09:01Z) - Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。
これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。
これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文 参考訳(メタデータ) (2024-07-11T17:44:41Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Assessing Privacy Risks in Language Models: A Case Study on
Summarization Tasks [65.21536453075275]
我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。
テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。
我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
論文 参考訳(メタデータ) (2023-10-20T05:44:39Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - On the Privacy Effect of Data Enhancement via the Lens of Memorization [20.63044895680223]
我々は,記憶化という新たな視点からプライバシを調査することを提案する。
記憶のレンズを通して、以前デプロイされたMIAは、より高いプライバシーリスクを持つサンプルを特定する可能性が低いため、誤解を招く結果をもたらすことがわかった。
一般化ギャップとプライバシリークは, これまでの結果に比べて相関が低いことを示す。
論文 参考訳(メタデータ) (2022-08-17T13:02:17Z) - Towards Differential Relational Privacy and its use in Question
Answering [109.4452196071872]
データセット内のエンティティ間の関係の記憶は、トレーニングされた質問応答モデルを使用する場合、プライバシの問題につながる可能性がある。
我々はこの現象を定量化し、微分プライバシー(DPRP)の定義を可能にする。
質問回答のための大規模モデルを用いた実験において,概念を解説する。
論文 参考訳(メタデータ) (2022-03-30T22:59:24Z) - Quantifying and Mitigating Privacy Risks of Contrastive Learning [4.909548818641602]
我々は、会員推定と属性推論のレンズを通して、コントラスト学習の最初のプライバシ分析を行う。
その結果,コントラストモデルではメンバシップ推論攻撃に弱いが,教師付きモデルに比べて属性推論攻撃に弱いことが示唆された。
この状況を改善するため,プライバシ保護型コントラスト学習機構であるTalosを提案する。
論文 参考訳(メタデータ) (2021-02-08T11:38:11Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。