論文の概要: Trade-offs in Data Memorization via Strong Data Processing Inequalities
- arxiv url: http://arxiv.org/abs/2506.01855v1
- Date: Mon, 02 Jun 2025 16:41:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.326131
- Title: Trade-offs in Data Memorization via Strong Data Processing Inequalities
- Title(参考訳): 強データ処理の不平等によるデータ記憶のトレードオフ
- Authors: Vitaly Feldman, Guy Kornowski, Xin Lyu,
- Abstract要約: 最近の研究では、大規模な言語モデルのトレーニングには、かなりの量のトレーニングデータの記憶が伴うことが示されている。
このような暗記は、センシティブなユーザデータをトレーニングする際のプライバシー侵害につながる可能性があるため、学習におけるデータ暗記の役割を研究する動機となる。
本稿では, 強データ処理の不等式とデータ記憶との新たな接続に依存する, 過剰なデータ記憶の下位境界を証明するための一般的な手法を開発する。
- 参考スコア(独自算出の注目度): 19.969359347811398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research demonstrated that training large language models involves memorization of a significant fraction of training data. Such memorization can lead to privacy violations when training on sensitive user data and thus motivates the study of data memorization's role in learning. In this work, we develop a general approach for proving lower bounds on excess data memorization, that relies on a new connection between strong data processing inequalities and data memorization. We then demonstrate that several simple and natural binary classification problems exhibit a trade-off between the number of samples available to a learning algorithm, and the amount of information about the training data that a learning algorithm needs to memorize to be accurate. In particular, $\Omega(d)$ bits of information about the training data need to be memorized when $O(1)$ $d$-dimensional examples are available, which then decays as the number of examples grows at a problem-specific rate. Further, our lower bounds are generally matched (up to logarithmic factors) by simple learning algorithms. We also extend our lower bounds to more general mixture-of-clusters models. Our definitions and results build on the work of Brown et al. (2021) and address several limitations of the lower bounds in their work.
- Abstract(参考訳): 最近の研究では、大規模な言語モデルのトレーニングには、かなりの量のトレーニングデータの記憶が伴うことが示されている。
このような暗記は、センシティブなユーザデータをトレーニングする際のプライバシー侵害につながる可能性があるため、学習におけるデータ暗記の役割を研究する動機となる。
本研究では, 強データ処理の不等式とデータ記憶との新たな接続に依存する, 過剰なデータ記憶の下位境界を証明するための一般的な手法を開発する。
そこで本研究では,学習アルゴリズムで利用可能なサンプル数と,学習アルゴリズムが正確に記憶する必要があるトレーニングデータに関する情報の量との間には,いくつかの単純で自然な二項分類問題が存在することを実証する。
特に$\Omega(d)$ bits of information about the training data is memorized when $O(1)$ $d$-dimensional examples are available, then the number of example increases at a problem-specific rate。
さらに、我々の下界は、単純な学習アルゴリズムによって、一般に(対数的要因まで)一致している。
また、下界をより一般的なクラスタの混合モデルに拡張する。
我々の定義と結果は、Brown et al (2021) の作業に基づいて構築され、その作業における下界のいくつかの制限に対処する。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
論文 参考訳(メタデータ) (2023-06-20T14:26:53Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Learning from Few Examples: A Summary of Approaches to Few-Shot Learning [3.6930948691311016]
Few-Shot Learningは、いくつかのトレーニングサンプルからデータの基本パターンを学習する問題を指す。
ディープラーニングソリューションは、データ飢餓と、膨大な計算時間とリソースに悩まされている。
機械学習アプリケーション構築のターンアラウンド時間を劇的に短縮できるようなショットラーニングは、低コストのソリューションとして現れます。
論文 参考訳(メタデータ) (2022-03-07T23:15:21Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。