論文の概要: Intersection of Parallels as an Early Stopping Criterion
- arxiv url: http://arxiv.org/abs/2208.09529v1
- Date: Fri, 19 Aug 2022 19:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 13:39:48.820833
- Title: Intersection of Parallels as an Early Stopping Criterion
- Title(参考訳): 早期停止基準としての並列のインターセクション
- Authors: Ali Vardasbi, Maarten de Rijke, Mostafa Dehghani
- Abstract要約: そこで本研究では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は,比較したすべての手法よりも平均的な一般化に寄与する。
- 参考スコア(独自算出の注目度): 64.8387564654474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A common way to avoid overfitting in supervised learning is early stopping,
where a held-out set is used for iterative evaluation during training to find a
sweet spot in the number of training steps that gives maximum generalization.
However, such a method requires a disjoint validation set, thus part of the
labeled data from the training set is usually left out for this purpose, which
is not ideal when training data is scarce. Furthermore, when the training
labels are noisy, the performance of the model over a validation set may not be
an accurate proxy for generalization. In this paper, we propose a method to
spot an early stopping point in the training iterations without the need for a
validation set. We first show that in the overparameterized regime the randomly
initialized weights of a linear model converge to the same direction during
training. Using this result, we propose to train two parallel instances of a
linear model, initialized with different random seeds, and use their
intersection as a signal to detect overfitting. In order to detect
intersection, we use the cosine distance between the weights of the parallel
models during training iterations. Noticing that the final layer of a NN is a
linear map of pre-last layer activations to output logits, we build on our
criterion for linear models and propose an extension to multi-layer networks,
using the new notion of counterfactual weights. We conduct experiments on two
areas that early stopping has noticeable impact on preventing overfitting of a
NN: (i) learning from noisy labels; and (ii) learning to rank in IR. Our
experiments on four widely used datasets confirm the effectiveness of our
method for generalization. For a wide range of learning rates, our method,
called Cosine-Distance Criterion (CDC), leads to better generalization on
average than all the methods that we compare against in almost all of the
tested cases.
- Abstract(参考訳): 教師あり学習における過剰フィットを避ける一般的な方法は、最大一般化をもたらすトレーニングステップの数でスイートスポットを見つけるために、トレーニング中の反復評価にホールドアウトセットを使用する早期停止である。
しかし、そのような方法は不整合検証セットを必要とするため、トレーニングセットからのラベル付きデータの一部は、通常この目的のために取り除かれ、トレーニングデータが不足している場合には理想的ではない。
さらに、トレーニングラベルが騒がしい場合、検証セットに対するモデルのパフォーマンスは、一般化の正確なプロキシにはならないかもしれない。
本稿では,検証セットを必要とせずに,トレーニングイテレーションの早期停止点を見つける手法を提案する。
まず,過剰パラメータ化環境では,線形モデルのランダム初期化重みがトレーニング中に同じ方向に収束することを示す。
この結果を用いて,異なるランダムな種で初期化される線形モデルの2つの並列インスタンスを訓練し,それらの交点を信号としてオーバーフィッティングを検出する。
交点を検出するために,訓練中の並列モデルの重み間のコサイン距離を用いる。
NNの最終層がロジット出力のための事前ラスト層活性化の線形写像であることに気付き、線形モデルの基準の上に構築し、対実重みという新たな概念を用いて多層ネットワークの拡張を提案する。
我々は,早期停止がNNのオーバーフィット防止に顕著な影響を及ぼす2つの領域について実験を行った。
(i)騒がしいラベルから学ぶこと、
(ii)irにおけるランク付けを学ぶこと。
広範に使用される4つのデータセットを用いた実験により,本手法の有効性を確認した。
幅広い学習率において,コサイン距離基準 (CDC) と呼ばれる手法は, ほぼすべてのテストケースで比較した手法と比較して, 平均値の一般化に寄与する。
関連論文リスト
- Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Benign Overfitting and Grokking in ReLU Networks for XOR Cluster Data [42.870635753205185]
勾配降下(GD)によって訓練されたニューラルネットワークは、多くの驚くべき一般化挙動を示した。
これらの現象は、XORクラスタデータ上でGDによって訓練された2層ReLUネットワークにおいて、良好に発生することを示す。
後続のトレーニングステップでは、ネットワークはトレーニングデータにランダムラベルをいまだに適合させながら、ほぼ最適のテスト精度を達成し、"グロッキング"現象を示す。
論文 参考訳(メタデータ) (2023-10-04T02:50:34Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Effective and Efficient Training for Sequential Recommendation using
Recency Sampling [91.02268704681124]
本稿では,新しいRecency-based Smpling of Sequencesトレーニング目標を提案する。
提案手法により拡張されたモデルにより,最先端のBERT4Recに近い性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-06T13:06:31Z) - Out-of-Scope Intent Detection with Self-Supervision and Discriminative
Training [20.242645823965145]
タスク指向対話システムにおいて、スコープ外インテント検出は実用上重要である。
本稿では,テストシナリオをシミュレートして,スコープ外インテント分類器をエンドツーエンドに学習する手法を提案する。
提案手法を4つのベンチマーク・ダイアログ・データセット上で広範囲に評価し,最先端のアプローチに対する大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-16T08:17:18Z) - How Important is the Train-Validation Split in Meta-Learning? [155.5088631672781]
メタラーニングにおける一般的な実践は、前者がデータの1つの分割に対してタスクに適応し、その結果の予測器が別の分割に対して評価される列車バリデーション分割(emphtrain-val method)を実行することである。
有病率にもかかわらず、列車の改札の重要性は理論上も実際上もよく理解されていない。
そこで本研究では,実際のメタ学習タスクとシミュレーションの両方において,トレイン・トレイン法がトレイン・ヴァル法より優れていることを示す。
論文 参考訳(メタデータ) (2020-10-12T16:48:42Z) - Training Sparse Neural Networks using Compressed Sensing [13.84396596420605]
本研究では,プレニングとトレーニングを1ステップに組み合わせた圧縮センシングに基づく新しい手法の開発と試験を行う。
具体的には、トレーニング中の重みを適応的に重み付けした$ell1$のペナルティを利用して、スパースニューラルネットワークをトレーニングするために、正規化二重平均化(RDA)アルゴリズムの一般化と組み合わせる。
論文 参考訳(メタデータ) (2020-08-21T19:35:54Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。