論文の概要: Characterizing Datapoints via Second-Split Forgetting
- arxiv url: http://arxiv.org/abs/2210.15031v1
- Date: Wed, 26 Oct 2022 21:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 14:47:35.092446
- Title: Characterizing Datapoints via Second-Split Forgetting
- Title(参考訳): セカンドスプリットフォーミングによるデータポイントのキャラクタリゼーション
- Authors: Pratyush Maini, Saurabh Garg, Zachary C. Lipton, J. Zico Kolter
- Abstract要約: 我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
- 参考スコア(独自算出の注目度): 93.99363547536392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Researchers investigating example hardness have increasingly focused on the
dynamics by which neural networks learn and forget examples throughout
training. Popular metrics derived from these dynamics include (i) the epoch at
which examples are first correctly classified; (ii) the number of times their
predictions flip during training; and (iii) whether their prediction flips if
they are held out. However, these metrics do not distinguish among examples
that are hard for distinct reasons, such as membership in a rare subpopulation,
being mislabeled, or belonging to a complex subpopulation. In this paper, we
propose $second$-$split$ $forgetting$ $time$ (SSFT), a complementary metric
that tracks the epoch (if any) after which an original training example is
forgotten as the network is fine-tuned on a randomly held out partition of the
data. Across multiple benchmark datasets and modalities, we demonstrate that
$mislabeled$ examples are forgotten quickly, and seemingly $rare$ examples are
forgotten comparatively slowly. By contrast, metrics only considering the first
split learning dynamics struggle to differentiate the two. At large learning
rates, SSFT tends to be robust across architectures, optimizers, and random
seeds. From a practical standpoint, the SSFT can (i) help to identify
mislabeled samples, the removal of which improves generalization; and (ii)
provide insights about failure modes. Through theoretical analysis addressing
overparameterized linear models, we provide insights into how the observed
phenomena may arise. Code for reproducing our experiments can be found here:
https://github.com/pratyushmaini/ssft
- Abstract(参考訳): 例の難易度を調査している研究者は、トレーニングを通じてニューラルネットワークが学習し、例を忘れてしまうダイナミクスに注目している。
これらのダイナミクスから派生した一般的なメトリクスには
(i)例が最初に正しく分類された時代
(二 訓練中にその予測がひっくり返る回数をいう。)
(iii)その予測が逆になるかどうか。
しかしながら、これらの指標は、希少なサブ人口の加入、ラベルの誤り、複雑なサブ人口の属など、異なる理由で難しい例を区別しない。
本論文では,ネットワークがランダムに保持されたデータ分割に微調整されているため,元のトレーニング例が忘れられたエポックを追跡する補完的指標である$second$-$split$$$forgetting$$$time$ (ssft)を提案する。
複数のベンチマークデータセットとモダリティで、$mislabeled$例はすぐに忘れられ、$rare$例は比較的ゆっくりと忘れられている。
対照的に、最初の分割学習力学のみを考慮したメトリクスは、この2つを区別するのに苦労する。
大規模な学習率では、SSFTはアーキテクチャ、オプティマイザ、ランダムシード間で堅牢である傾向にある。
実用的観点から見て、SSFTは
(i)誤記されたサンプルの同定を助け、その削除により一般化が改善される。
(ii) 障害モードに関する洞察を提供する。
過パラメータ線形モデルに対する理論的解析を通じて,観測現象がどのように発生するかを考察する。
実験を再現するためのコードは以下の通りである。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Toward Understanding Generative Data Augmentation [16.204251285425478]
生成データの増大は、発散項の順序が$o(maxleft( log(m)beta_m, 1 / sqrtm)right)$である場合、より高速に学習できることを示す。
いずれの場合も、生成データの増大は学習速度の速さを損なうものではないが、列車セットが小さい場合、一定のレベルで学習保証を改善することができることを証明している。
論文 参考訳(メタデータ) (2023-05-27T13:46:08Z) - Revisiting Discriminative vs. Generative Classifiers: Theory and
Implications [37.98169487351508]
本論文はベイズの統計的効率に着想を得たものである。
マルチクラス$mathcalH$-consistency bound frameworkと明示的なロジスティック損失境界を示す。
様々な事前訓練されたディープビジョンモデルの実験は、データの数が増加するにつれて、ナイーブベイズは常に速く収束することを示している。
論文 参考訳(メタデータ) (2023-02-05T08:30:42Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - When does loss-based prioritization fail? [18.982933391138268]
ノイズや破損したデータのあるシナリオでは,損失に基づく加速度法が劣化することを示す。
例題の難易度は、ノイズを他のタイプの難易度例から正しく分離する必要がある。
論文 参考訳(メタデータ) (2021-07-16T07:23:15Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Instance Credibility Inference for Few-Shot Learning [45.577880041135785]
ほとんどショットラーニングは、カテゴリごとに非常に限られたトレーニングデータを持つ新しいオブジェクトを認識することを目的としていない。
本稿では,未ラベルのインスタンスの分散サポートを数発の学習に活用するために,ICI (Instance Credibility Inference) と呼ばれる単純な統計手法を提案する。
我々の単純なアプローチは、広く使われている4つのショットラーニングベンチマークデータセットに基づいて、最先端の新たなデータセットを確立することができる。
論文 参考訳(メタデータ) (2020-03-26T12:01:15Z) - Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。
ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文 参考訳(メタデータ) (2020-03-24T03:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。