論文の概要: Deep Learning Through the Lens of Example Difficulty
- arxiv url: http://arxiv.org/abs/2106.09647v1
- Date: Thu, 17 Jun 2021 16:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:06:18.376896
- Title: Deep Learning Through the Lens of Example Difficulty
- Title(参考訳): 実例難解なレンズによる深層学習
- Authors: Robert J. N. Baldock, Hartmut Maennel and Behnam Neyshabur
- Abstract要約: 本稿では,与えられた入力の予測を行う際の計算困難度,すなわち(有効)予測深さを測る尺度を提案する。
我々の研究は、与えられた入力の予測深さとモデルの不確実性、信頼性、正確性、そしてそのデータポイントの学習速度との間の驚くほど単純な関係を明らかにする。
- 参考スコア(独自算出の注目度): 21.522182447513632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work on understanding deep learning often employs measures that
compress all data-dependent information into a few numbers. In this work, we
adopt a perspective based on the role of individual examples. We introduce a
measure of the computational difficulty of making a prediction for a given
input: the (effective) prediction depth. Our extensive investigation reveals
surprising yet simple relationships between the prediction depth of a given
input and the model's uncertainty, confidence, accuracy and speed of learning
for that data point. We further categorize difficult examples into three
interpretable groups, demonstrate how these groups are processed differently
inside deep models and showcase how this understanding allows us to improve
prediction accuracy. Insights from our study lead to a coherent view of a
number of separately reported phenomena in the literature: early layers
generalize while later layers memorize; early layers converge faster and
networks learn easy data and simple functions first.
- Abstract(参考訳): ディープラーニングを理解するための既存の作業は、すべてのデータ依存情報を数個に圧縮する手段をしばしば採用している。
本研究では,個々の事例の役割に基づいた視点を採用する。
本稿では,与えられた入力の予測を行う際の計算困難度,すなわち(有効)予測深さの尺度を提案する。
広範な調査により,入力の予測深さとモデルの不確実性,信頼性,正確性,データポイントの学習速度との間に,驚くほど単純な関係が明らかになった。
さらに、難解な例を3つの解釈可能な群に分類し、これらの群が深層モデル内でどのように異なる処理を行うかを示し、この理解によって予測精度が向上することを示す。
初期の層は一般化し、後の層は記憶する; 初期の層はより早く収束し、ネットワークは簡単なデータと単純な関数を学習する。
関連論文リスト
- Deep Learning Through A Telescoping Lens: A Simple Model Provides Empirical Insights On Grokking, Gradient Boosting & Beyond [61.18736646013446]
その驚くべき振る舞いをより深く理解するために、トレーニングされたニューラルネットワークの単純かつ正確なモデルの有用性について検討する。
3つのケーススタディで、様々な顕著な現象に関する新しい経験的洞察を導き出すためにどのように適用できるかを説明します。
論文 参考訳(メタデータ) (2024-10-31T22:54:34Z) - Predicting and analyzing memorization within fine-tuned Large Language Models [0.0]
大規模言語モデルはトレーニングデータのかなりの割合を記憶しており、推論時に開示されると深刻な脅威となる。
そこで本稿では, 記憶されたサンプルを事前検出するための, スライスされた相互情報に基づく新しい手法を提案する。
我々は,暗記前に,これらの脆弱なサンプルの系統的な検査と保護を行うための方法を編み出した,強い経験的結果を得た。
論文 参考訳(メタデータ) (2024-09-27T15:53:55Z) - The Trade-off between Universality and Label Efficiency of
Representations from Contrastive Learning [32.15608637930748]
2つのデシダラタの間にはトレードオフがあることを示し、同時に両方を達成できない可能性があることを示す。
我々は、理論データモデルを用いて分析を行い、より多様な事前学習データにより、異なるタスクに対してより多様な機能が得られる一方で、タスク固有の機能に重点を置いていないことを示す。
論文 参考訳(メタデータ) (2023-02-28T22:14:33Z) - Deep networks for system identification: a Survey [56.34005280792013]
システム識別は、入力出力データから動的システムの数学的記述を学習する。
同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。
我々は、フィードフォワード、畳み込み、リカレントネットワークなどの文献で一般的に採用されているアーキテクチャについて論じる。
論文 参考訳(メタデータ) (2023-01-30T12:38:31Z) - A Minimalist Dataset for Systematic Generalization of Perception,
Syntax, and Semantics [131.93113552146195]
我々は,機械が一般化可能な概念を学習する能力を調べるため,新しいデータセットであるHINT(Hand written arithmetic with INTegers)を提案する。
HINTでは、イメージなどの生信号から概念がどのように認識されるかを学ぶことが機械のタスクである。
我々は、RNN、Transformer、GPT-3など、様々なシーケンス・ツー・シーケンスモデルで広範囲に実験を行った。
論文 参考訳(メタデータ) (2021-03-02T01:32:54Z) - When is Memorization of Irrelevant Training Data Necessary for
High-Accuracy Learning? [53.523017945443115]
我々は,十分な精度のトレーニングアルゴリズムが,予測モデルにおいて,そのトレーニング例の大規模サブセットに関する情報を本質的にすべてエンコードしなければならない自然予測問題を記述する。
私たちの結果は、トレーニングアルゴリズムや学習に使用されるモデルのクラスに依存しません。
論文 参考訳(メタデータ) (2020-12-11T15:25:14Z) - What Neural Networks Memorize and Why: Discovering the Long Tail via
Influence Estimation [37.5845376458136]
ディープラーニングアルゴリズムは、トレーニングデータの適合性が非常によく知られている。
このようなフィッティングには、トレーニングデータラベルの記憶が必要である。
本稿では,この現象の理論的説明を2つの知見の組み合わせに基づいて提案する。
論文 参考訳(メタデータ) (2020-08-09T10:12:28Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Post-Estimation Smoothing: A Simple Baseline for Learning with Side
Information [102.18616819054368]
本稿では,構造指標データを予測に組み込む高速かつ効率的な手法として,後推定平滑化演算子を提案する。
滑らかなステップは元の予測器とは分離されているため、機械学習タスクの幅広いクラスに適用できる。
大規模な空間的・時間的データセットに関する実験は,実測後のスムース化の速度と正確さを浮き彫りにした。
論文 参考訳(メタデータ) (2020-03-12T18:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。