論文の概要: Leveraging Unlabeled Data to Track Memorization
- arxiv url: http://arxiv.org/abs/2212.04461v1
- Date: Thu, 8 Dec 2022 18:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 16:08:52.541253
- Title: Leveraging Unlabeled Data to Track Memorization
- Title(参考訳): 記録追跡のためのラベルなしデータを活用する
- Authors: Mahsa Forouzesh and Hanie Sedghi and Patrick Thiran
- Abstract要約: 本稿では,ニューラルネットワークの記憶度を計測する指標であるサセプティビリティー(Susceptibility)を提案する。
様々なアーキテクチャやデータセット上での記憶の追跡におけるメトリックの有効性を実証的に示す。
- 参考スコア(独自算出の注目度): 15.4909376515404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks may easily memorize noisy labels present in real-world
data, which degrades their ability to generalize. It is therefore important to
track and evaluate the robustness of models against noisy label memorization.
We propose a metric, called susceptibility, to gauge such memorization for
neural networks. Susceptibility is simple and easy to compute during training.
Moreover, it does not require access to ground-truth labels and it only uses
unlabeled data. We empirically show the effectiveness of our metric in tracking
memorization on various architectures and datasets and provide theoretical
insights into the design of the susceptibility metric. Finally, we show through
extensive experiments on datasets with synthetic and real-world label noise
that one can utilize susceptibility and the overall training accuracy to
distinguish models that maintain a low memorization on the training set and
generalize well to unseen clean data.
- Abstract(参考訳): 深層ニューラルネットワークは、現実世界のデータに存在するノイズの多いラベルを記憶し易いため、一般化する能力が低下する。
したがって、ノイズラベル記憶に対するモデルの堅牢性を追跡・評価することが重要である。
ニューラルネットワークのこのような記憶量を測定するために,サセプシビリティ(susceptibility)と呼ばれる指標を提案する。
サセプティビリティは単純で、トレーニング中に簡単に計算できる。
さらに、接地ラベルへのアクセスは必要とせず、ラベルのないデータのみを使用する。
様々なアーキテクチャやデータセットの記憶を追跡する上でのメトリクスの有効性を実証的に示し、感受性メトリクスの設計に関する理論的洞察を提供する。
最後に,合成および実世界のラベルノイズを用いたデータセットの広範な実験を通じて,感受性とトレーニング精度を活用し,トレーニングセットの記憶力の低いモデルを識別し,クリーンなデータにうまく一般化することを示す。
関連論文リスト
- Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - MILD: Modeling the Instance Learning Dynamics for Learning with Noisy
Labels [19.650299232829546]
クリーンなデータを特定するために,Weibull混合モデルに基づく反復的選択手法を提案する。
特に、誤分類と暗記の間の遷移時間を通じて、各インスタンスの暗記の難しさを測定し、暗記する。
我々の戦略は既存の雑音ラベル学習方法より優れている。
論文 参考訳(メタデータ) (2023-06-20T14:26:53Z) - Mitigating Label Noise through Data Ambiguation [9.51828574518325]
表現力の高い大型モデルは、誤ったラベルを記憶する傾向があるため、一般化性能を損なう。
本稿では,対象情報の「曖昧化」により,両手法の欠点に対処することを提案する。
より正確には、いわゆる超集合学習の枠組みを利用して、信頼度閾値に基づいて設定値の目標を構築する。
論文 参考訳(メタデータ) (2023-05-23T07:29:08Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Understanding Memorization from the Perspective of Optimization via
Efficient Influence Estimation [54.899751055620904]
本研究では,実データ(実データ)とランダムラベル(ランダムデータ)のデータに対する,ターンオーバードロップアウトによる暗記現象,影響と暗記を効率的に推定する手法について検討する。
i) 実データと乱データの両方において、簡単な例(例えば、実データ)と難しい例(例えば、乱データ)の最適化は、ネットワークによって同時に行われる。
論文 参考訳(メタデータ) (2021-12-16T11:34:23Z) - Learning from Noisy Labels for Entity-Centric Information Extraction [17.50856935207308]
エンティティ中心の情報抽出のための単純な共正規化フレームワークを提案する。
これらのモデルはタスク固有の損失と共同最適化され、同様の予測を生成するために正規化される。
結局のところ、トレーニングされたモデルのいずれかを推論に利用できます。
論文 参考訳(メタデータ) (2021-04-17T22:49:12Z) - Noisy Labels Can Induce Good Representations [53.47668632785373]
アーキテクチャがノイズラベルによる学習に与える影響について検討する。
ノイズラベルを用いたトレーニングは,モデルが一般化に乏しい場合でも,有用な隠れ表現を誘導できることを示す。
この発見は、騒々しいラベルで訓練されたモデルを改善する簡単な方法につながります。
論文 参考訳(メタデータ) (2020-12-23T18:58:05Z) - Iterative Label Improvement: Robust Training by Confidence Based
Filtering and Dataset Partitioning [5.1293809610257775]
最先端、高容量のディープニューラルネットワークは、大量のラベル付きトレーニングデータを必要とする。
また、このデータにエラーをラベル付けする可能性も高い。
本稿では,安価な非競合データを使用することのできる新しいメタトレーニング・ラベリング手法を提案する。
論文 参考訳(メタデータ) (2020-02-07T10:42:26Z) - Exploratory Machine Learning with Unknown Unknowns [60.78953456742171]
本稿では,他のラベルと誤認識されたトレーニングデータに未知のクラスが存在するという,新たな問題設定について検討する。
本研究では,潜在的に隠蔽されたクラスを発見するために,機能空間を積極的に拡張することにより,学習データを調べ,調査する探索機械学習を提案する。
論文 参考訳(メタデータ) (2020-02-05T02:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。