論文の概要: When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning?
- arxiv url: http://arxiv.org/abs/2012.06421v1
- Date: Fri, 11 Dec 2020 15:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 02:55:39.562931
- Title: When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning?
- Title(参考訳): 高精度学習に必要な無関係トレーニングデータの記憶はいつ必要か?
- Authors: Gavin Brown, Mark Bun, Vitaly Feldman, Adam Smith, Kunal Talwar
- Abstract要約: 我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
- 参考スコア(独自算出の注目度): 53.523017945443115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern machine learning models are complex and frequently encode surprising
amounts of information about individual inputs. In extreme cases, complex
models appear to memorize entire input examples, including seemingly irrelevant
information (social security numbers from text, for example). In this paper, we
aim to understand whether this sort of memorization is necessary for accurate
learning. We describe natural prediction problems in which every sufficiently
accurate training algorithm must encode, in the prediction model, essentially
all the information about a large subset of its training examples. This remains
true even when the examples are high-dimensional and have entropy much higher
than the sample size, and even when most of that information is ultimately
irrelevant to the task at hand. Further, our results do not depend on the
training algorithm or the class of models used for learning.
Our problems are simple and fairly natural variants of the next-symbol
prediction and the cluster labeling tasks. These tasks can be seen as
abstractions of image- and text-related prediction problems. To establish our
results, we reduce from a family of one-way communication problems for which we
prove new information complexity lower bounds.
- Abstract(参考訳): 現代の機械学習モデルは複雑で、個々の入力に関する驚くべき量の情報をエンコードすることが多い。
極端な場合、複雑なモデルは、一見無関係な情報(例えばテキストの社会保障番号)を含む全ての入力例を記憶しているように見える。
本稿では,このような記憶が正確な学習に必要かどうかを理解することを目的とする。
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
例が高次元であり、サンプルサイズよりもはるかに高いエントロピーを持つ場合や、その情報が最終的に手元にあるタスクと無関係である場合でも、これは事実である。
さらに,本研究の結果は,学習に使用する学習アルゴリズムやモデルのクラスに依存しない。
我々の問題は、次のシンボリック予測とクラスタラベリングタスクの単純かつかなり自然な変種である。
これらのタスクは、画像およびテキスト関連予測問題の抽象化と見なすことができる。
結果を確立するため、新たな情報複雑性の低い境界を証明できる一方的なコミュニケーション問題の家系から減じる。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Robust Machine Learning by Transforming and Augmenting Imperfect
Training Data [6.928276018602774]
この論文は、現代の機械学習のいくつかのデータ感度を探求する。
まず、トレーニングデータで測定された事前の人間の識別をMLが符号化するのを防ぐ方法について論じる。
次に、トレーニング中に予測忠実度を提供するが、デプロイ時に信頼性が低い突発的特徴を含むデータから学習する問題について論じる。
論文 参考訳(メタデータ) (2023-12-19T20:49:28Z) - Ticketed Learning-Unlearning Schemes [57.89421552780526]
そこで我々は,学習のためのチケット付きモデルを提案する。
広義のコンセプトクラスに対して,空間効率のよいチケット付き学習スキームを提供する。
論文 参考訳(メタデータ) (2023-06-27T18:54:40Z) - The No Free Lunch Theorem, Kolmogorov Complexity, and the Role of Inductive Biases in Machine Learning [80.1018596899899]
ニューラルネットワークモデルは、Kolmogorov複雑性を使って形式化された、同じ好みを共有している、と我々は主張する。
実験の結果、事前訓練された言語モデルでも、低複雑さのシーケンスを生成するのが好まれることがわかった。
これらの観察は、ますます小さな機械学習モデルで異なるように見える問題を統一する深層学習の傾向を正当化する。
論文 参考訳(メタデータ) (2023-04-11T17:22:22Z) - On Inductive Biases for Machine Learning in Data Constrained Settings [0.0]
この論文は、データ制約された設定で表現力のあるモデルを学ぶという問題に対する異なる答えを探求する。
ニューラルネットワークを学ぶために、大きなデータセットに頼るのではなく、データ構造を反映した既知の関数によって、いくつかのモジュールを置き換えるつもりです。
我々のアプローチは「帰納的バイアス」のフードの下に置かれており、これは探索するモデルの空間を制限する手元にあるデータの仮説として定義することができる。
論文 参考訳(メタデータ) (2023-02-21T14:22:01Z) - Small Language Models for Tabular Data [0.0]
分類と回帰の問題に対処する深層表現学習の能力を示す。
小型モデルは様々な関数の近似に十分なキャパシティを持ち、記録分類ベンチマークの精度を実現する。
論文 参考訳(メタデータ) (2022-11-05T16:57:55Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Learning from Few Examples: A Summary of Approaches to Few-Shot Learning [3.6930948691311016]
Few-Shot Learningは、いくつかのトレーニングサンプルからデータの基本パターンを学習する問題を指す。
ディープラーニングソリューションは、データ飢餓と、膨大な計算時間とリソースに悩まされている。
機械学習アプリケーション構築のターンアラウンド時間を劇的に短縮できるようなショットラーニングは、低コストのソリューションとして現れます。
論文 参考訳(メタデータ) (2022-03-07T23:15:21Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。