Fugu-MT 論文翻訳(概要): Characterizing Datapoints via Second-Split Forgetting

論文の概要: Characterizing Datapoints via Second-Split Forgetting

arxiv url: http://arxiv.org/abs/2210.15031v1
Date: Wed, 26 Oct 2022 21:03:46 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-28 14:47:35.092446
Title: Characterizing Datapoints via Second-Split Forgetting
Title（参考訳）: セカンドスプリットフォーミングによるデータポイントのキャラクタリゼーション
Authors: Pratyush Maini, Saurabh Garg, Zachary C. Lipton, J. Zico Kolter
Abstract要約: 我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。 SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
参考スコア（独自算出の注目度）: 93.99363547536392
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Researchers investigating example hardness have increasingly focused on the dynamics by which neural networks learn and forget examples throughout training. Popular metrics derived from these dynamics include (i) the epoch at which examples are first correctly classified; (ii) the number of times their predictions flip during training; and (iii) whether their prediction flips if they are held out. However, these metrics do not distinguish among examples that are hard for distinct reasons, such as membership in a rare subpopulation, being mislabeled, or belonging to a complex subpopulation. In this paper, we propose $second$-$split$ $forgetting$ $time$ (SSFT), a complementary metric that tracks the epoch (if any) after which an original training example is forgotten as the network is fine-tuned on a randomly held out partition of the data. Across multiple benchmark datasets and modalities, we demonstrate that $mislabeled$ examples are forgotten quickly, and seemingly $rare$ examples are forgotten comparatively slowly. By contrast, metrics only considering the first split learning dynamics struggle to differentiate the two. At large learning rates, SSFT tends to be robust across architectures, optimizers, and random seeds. From a practical standpoint, the SSFT can (i) help to identify mislabeled samples, the removal of which improves generalization; and (ii) provide insights about failure modes. Through theoretical analysis addressing overparameterized linear models, we provide insights into how the observed phenomena may arise. Code for reproducing our experiments can be found here: https://github.com/pratyushmaini/ssft
Abstract（参考訳）: 例の難易度を調査している研究者は、トレーニングを通じてニューラルネットワークが学習し、例を忘れてしまうダイナミクスに注目している。これらのダイナミクスから派生した一般的なメトリクスには (i)例が最初に正しく分類された時代 (二訓練中にその予測がひっくり返る回数をいう。) (iii)その予測が逆になるかどうか。しかしながら、これらの指標は、希少なサブ人口の加入、ラベルの誤り、複雑なサブ人口の属など、異なる理由で難しい例を区別しない。本論文では,ネットワークがランダムに保持されたデータ分割に微調整されているため,元のトレーニング例が忘れられたエポックを追跡する補完的指標である$second$-$split$$$forgetting$$$time$ (ssft)を提案する。複数のベンチマークデータセットとモダリティで、$mislabeled$例はすぐに忘れられ、$rare$例は比較的ゆっくりと忘れられている。対照的に、最初の分割学習力学のみを考慮したメトリクスは、この2つを区別するのに苦労する。大規模な学習率では、SSFTはアーキテクチャ、オプティマイザ、ランダムシード間で堅牢である傾向にある。実用的観点から見て、SSFTは (i)誤記されたサンプルの同定を助け、その削除により一般化が改善される。 (ii) 障害モードに関する洞察を提供する。過パラメータ線形モデルに対する理論的解析を通じて,観測現象がどのように発生するかを考察する。実験を再現するためのコードは以下の通りである。

関連論文リスト

Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-08-26T12:43:25Z)
Toward Understanding Generative Data Augmentation [16.204251285425478]
生成データの増大は、発散項の順序が$o(maxleft( log(m)beta_m, 1 / sqrtm)right)$である場合、より高速に学習できることを示す。いずれの場合も、生成データの増大は学習速度の速さを損なうものではないが、列車セットが小さい場合、一定のレベルで学習保証を改善することができることを証明している。
論文参考訳（メタデータ） (2023-05-27T13:46:08Z)
Revisiting Discriminative vs. Generative Classifiers: Theory and Implications [37.98169487351508]
本論文はベイズの統計的効率に着想を得たものである。マルチクラス$mathcalH$-consistency bound frameworkと明示的なロジスティック損失境界を示す。様々な事前訓練されたディープビジョンモデルの実験は、データの数が増加するにつれて、ナイーブベイズは常に速く収束することを示している。
論文参考訳（メタデータ） (2023-02-05T08:30:42Z)
Relieving Long-tailed Instance Segmentation via Pairwise Class Balance [85.53585498649252]
長い尾のインスタンスセグメンテーションは、クラス間のトレーニングサンプルの極端な不均衡のために難しいタスクである。尾のついたものに対して、(大多数のサンプルを含む)ヘッドクラスの深刻なバイアスを引き起こす。そこで本研究では,学習中の予測嗜好を蓄積するために,学習中に更新される混乱行列上に構築された新しいPairwise Class Balance(PCB)手法を提案する。
論文参考訳（メタデータ） (2022-01-08T07:48:36Z)
Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文参考訳（メタデータ） (2021-09-01T23:52:29Z)
When does loss-based prioritization fail? [18.982933391138268]
ノイズや破損したデータのあるシナリオでは,損失に基づく加速度法が劣化することを示す。例題の難易度は、ノイズを他のタイプの難易度例から正しく分離する必要がある。
論文参考訳（メタデータ） (2021-07-16T07:23:15Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)
Instance Credibility Inference for Few-Shot Learning [45.577880041135785]
ほとんどショットラーニングは、カテゴリごとに非常に限られたトレーニングデータを持つ新しいオブジェクトを認識することを目的としていない。本稿では,未ラベルのインスタンスの分散サポートを数発の学習に活用するために,ICI (Instance Credibility Inference) と呼ばれる単純な統計手法を提案する。我々の単純なアプローチは、広く使われている4つのショットラーニングベンチマークデータセットに基づいて、最先端の新たなデータセットを確立することができる。
論文参考訳（メタデータ） (2020-03-26T12:01:15Z)
Robust and On-the-fly Dataset Denoising for Image Classification [72.10311040730815]
On-the-fly Data Denoising (ODD)は、間違ったラベルの例に対して堅牢だが、通常のトレーニングと比べて計算オーバーヘッドはほぼゼロである。 ODDはWebVisionやClothing1Mといった現実世界のデータセットを含む、幅広いデータセットで最先端の結果を達成することができる。
論文参考訳（メタデータ） (2020-03-24T03:59:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。