論文の概要: What Neural Networks Memorize and Why: Discovering the Long Tail via
Influence Estimation
- arxiv url: http://arxiv.org/abs/2008.03703v1
- Date: Sun, 9 Aug 2020 10:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 03:57:45.315124
- Title: What Neural Networks Memorize and Why: Discovering the Long Tail via
Influence Estimation
- Title(参考訳): ニューラルネットワークの記憶と理由:影響推定によるロングテールの発見
- Authors: Vitaly Feldman and Chiyuan Zhang
- Abstract要約: ディープラーニングアルゴリズムは、トレーニングデータの適合性が非常によく知られている。
このようなフィッティングには、トレーニングデータラベルの記憶が必要である。
本稿では,この現象の理論的説明を2つの知見の組み合わせに基づいて提案する。
- 参考スコア(独自算出の注目度): 37.5845376458136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning algorithms are well-known to have a propensity for fitting the
training data very well and often fit even outliers and mislabeled data points.
Such fitting requires memorization of training data labels, a phenomenon that
has attracted significant research interest but has not been given a compelling
explanation so far. A recent work of Feldman (2019) proposes a theoretical
explanation for this phenomenon based on a combination of two insights. First,
natural image and data distributions are (informally) known to be long-tailed,
that is have a significant fraction of rare and atypical examples. Second, in a
simple theoretical model such memorization is necessary for achieving
close-to-optimal generalization error when the data distribution is
long-tailed. However, no direct empirical evidence for this explanation or even
an approach for obtaining such evidence were given.
In this work we design experiments to test the key ideas in this theory. The
experiments require estimation of the influence of each training example on the
accuracy at each test example as well as memorization values of training
examples. Estimating these quantities directly is computationally prohibitive
but we show that closely-related subsampled influence and memorization values
can be estimated much more efficiently. Our experiments demonstrate the
significant benefits of memorization for generalization on several standard
benchmarks. They also provide quantitative and visually compelling evidence for
the theory put forth in (Feldman, 2019).
- Abstract(参考訳): ディープラーニングアルゴリズムは、トレーニングデータに非常に適しており、異常値や誤ったラベル付きデータポイントにも適していることがよく知られている。
このような適合性は、重要な研究関心を惹きつけたが、今のところ説得力のある説明は与えられていない現象である、データラベルの訓練を暗記する必要がある。
Feldman (2019) の最近の研究は、2つの洞察の組み合わせに基づく理論的な説明を提唱している。
まず、自然画像とデータ分布は(形式的には)長い尾を持つことが知られており、稀で非定型的な例のかなりの割合を持つ。
第二に、単純な理論モデルでは、データ分布が長い場合の至近汎化誤差を達成するためには、このような記憶化が必要である。
しかし、この説明の直接的な実証的証拠や、そのような証拠を得るためのアプローチは与えられなかった。
この研究では、この理論の重要なアイデアをテストする実験をデザインします。
実験では、各トレーニング例が各テスト例の精度およびトレーニング例の記憶値に与える影響を推定する必要がある。
これらの量を直接推定することは計算的に禁止されるが、密接な関係にある部分サンプリングの影響や記憶値をより効率的に推定できることを示す。
私たちの実験は、いくつかの標準ベンチマークにおける一般化のための記憶の大幅な利点を示しています。
また、この理論の定量的かつ視覚的に説得力のある証拠も提示している(Feldman, 2019)。
関連論文リスト
- Why Fine-grained Labels in Pretraining Benefit Generalization? [12.171634061370616]
近年の研究では、詳細なラベル付きデータでディープニューラルネットワークを事前トレーニングし、粗ラベル付きデータで微調整すると、粗ラベル付きデータで事前トレーニングするよりもより優れた一般化が得られることが示されている。
本稿では,入力データ分布を限定する階層的マルチビュー構造を導入することで,このギャップに対処する。
1)粗粒度事前学習はニューラルネットワークが共通の特徴をうまく学習するのに対して,2)粗粒度事前学習は,一般的な特徴に加えて稀な特徴をネットワークが学習するのに役立つため,ハードダウンストリームテストサンプルの精度が向上する。
論文 参考訳(メタデータ) (2024-10-30T15:41:30Z) - Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Empirical Design in Reinforcement Learning [23.873958977534993]
現在、数十のタスクに対して数百万のパラメータを持つエージェントのベンチマークが一般的であり、それぞれが30日間の経験に相当するものを使用している。
これらの実験の規模は、特にアルゴリズムの比較において、適切な統計的証拠の必要性と矛盾することが多い。
この写本は、行動への呼びかけと、強化学習において優れた実験を行うための包括的なリソースの両方を表現している。
論文 参考訳(メタデータ) (2023-04-03T19:32:24Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - An Empirical Study of Memorization in NLP [8.293936347234126]
3つの異なるNLPタスクを使用して、ロングテール理論が成立するかどうかをチェックする。
実験により、トップランクの記憶されたトレーニングインスタンスはおそらく非典型的であることが示された。
トレーニングインスタンスを記憶する理由をよりよく理解するための属性手法を開発した。
論文 参考訳(メタデータ) (2022-03-23T03:27:56Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Deep Learning Through the Lens of Example Difficulty [21.522182447513632]
本稿では,与えられた入力の予測を行う際の計算困難度,すなわち(有効)予測深さを測る尺度を提案する。
我々の研究は、与えられた入力の予測深さとモデルの不確実性、信頼性、正確性、そしてそのデータポイントの学習速度との間の驚くほど単純な関係を明らかにする。
論文 参考訳(メタデータ) (2021-06-17T16:48:12Z) - A Theoretical Analysis of Learning with Noisily Labeled Data [62.946840431501855]
最初に、最初のエポックトレーニングで、クリーンラベルの例が先に学習されることを示しました。
次に、クリーンデータステージから学習した後、継続的なトレーニングモデルがテストエラーのさらなる改善を達成できることを示します。
論文 参考訳(メタデータ) (2021-04-08T23:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。