論文の概要: A Robust Optimization Method for Label Noisy Datasets Based on Adaptive
Threshold: Adaptive-k
- arxiv url: http://arxiv.org/abs/2203.14165v1
- Date: Sat, 26 Mar 2022 21:48:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 12:43:24.886077
- Title: A Robust Optimization Method for Label Noisy Datasets Based on Adaptive
Threshold: Adaptive-k
- Title(参考訳): Adaptive Thresholdに基づくラベルノイズデータセットのロバスト最適化法:Adaptive-k
- Authors: Enes Dedeoglu, Himmet Toprak Kesgin, Mehmet Fatih Amasyali
- Abstract要約: SGDはラベルノイズのあるデータセットに対してロバストな結果を出さない。
本稿では,ミニバッチのすべてのサンプルを使用する代わりに,最適化プロセス中に決定される閾値未満の損失を持つサンプルを使用することを推奨する。
提案手法であるAdaptive-kは,ラベルノイズサンプルを最適化プロセスから排除し,その処理を堅牢化することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SGD does not produce robust results on datasets with label noise. Because the
gradients calculated according to the losses of the noisy samples cause the
optimization process to go in the wrong direction. In this paper, as an
alternative to SGD, we recommend using samples with loss less than a threshold
value determined during the optimization process, instead of using all samples
in the mini-batch. Our proposed method, Adaptive-k, aims to exclude label noise
samples from the optimization process and make the process robust. On noisy
datasets, we found that using a threshold-based approach, such as Adaptive-k,
produces better results than using all samples or a fixed number of low-loss
samples in the mini-batch. Based on our theoretical analysis and experimental
results, we show that the Adaptive-k method is closest to the performance of
the oracle, in which noisy samples are entirely removed from the dataset.
Adaptive-k is a simple but effective method. It does not require prior
knowledge of the noise ratio of the dataset, does not require additional model
training, and does not increase training time significantly. The code for
Adaptive-k is available at https://github.com/enesdedeoglu-TR/Adaptive-k
- Abstract(参考訳): SGDはラベルノイズのあるデータセットに対してロバストな結果を出さない。
ノイズサンプルの損失に応じて計算された勾配は、最適化プロセスが間違った方向に進む原因となる。
本稿では,SGDの代替として,ミニバッチのすべてのサンプルを使用する代わりに,最適化プロセス中に決定される閾値未満の損失を持つサンプルを使用することを推奨する。
提案手法であるAdaptive-kは,ラベルノイズサンプルを最適化プロセスから排除し,その処理を堅牢化することを目的としている。
ノイズの多いデータセットでは、Adaptive-kのようなしきい値に基づくアプローチを用いることで、ミニバッチ内のすべてのサンプルや固定数の低損失サンプルよりも優れた結果が得られることがわかった。
理論的解析と実験結果から,Adaptive-k法はオラクルの性能に最も近づき,ノイズのあるサンプルがデータセットから完全に取り除かれることを示した。
Adaptive-kは単純だが効果的な方法である。
データセットのノイズ比の事前知識は必要とせず、追加のモデルトレーニングも必要とせず、トレーニング時間が大幅に増加することはない。
Adaptive-kのコードはhttps://github.com/enesdedeoglu-TR/Adaptive-kで入手できる。
関連論文リスト
- ANNE: Adaptive Nearest Neighbors and Eigenvector-based Sample Selection for Robust Learning with Noisy Labels [7.897299759691143]
本稿では,Adaptive Nearest Neighbors and Eigenvector-based sample selection methodを紹介する。
ANNEは、損失に基づくサンプリングとFINEとAdaptive KNNを統合し、幅広いノイズレートシナリオのパフォーマンスを最適化する。
論文 参考訳(メタデータ) (2024-11-03T15:51:38Z) - Double Correction Framework for Denoising Recommendation [45.98207284259792]
暗黙のフィードバックでは、ノイズの多いサンプルが正確なユーザの好みの学習に影響を与える可能性がある。
一般的なソリューションは、モデルトレーニングフェーズでノイズの多いサンプルをドロップすることに基づいている。
提案手法では,勧告を記述するための二重補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-18T12:15:10Z) - Regroup Median Loss for Combating Label Noise [19.51996047333779]
深層モデルトレーニングには、注釈付きデータの大規模なデータセットが必要である。
多数のサンプルを注釈付けすることが難しいため、誤ったアノテーションによるラベルノイズは避けられない。
ノイズのあるサンプルを選択する確率を低減し,ノイズの多いサンプルの損失を正すために,Regroup Median Loss (RML)を提案する。
論文 参考訳(メタデータ) (2023-12-11T10:19:55Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - Robust Meta-learning with Sampling Noise and Label Noise via
Eigen-Reptile [78.1212767880785]
Meta-learnerは、利用可能なサンプルがわずかしかないため、過度に適合する傾向がある。
ノイズの多いラベルでデータを扱う場合、メタラーナーはラベルノイズに対して非常に敏感になる可能性がある。
本稿では,タスク固有のパラメータの主要な方向でメタパラメータを更新するEigen-Reptile(ER)を提案する。
論文 参考訳(メタデータ) (2022-06-04T08:48:02Z) - Adaptive Sample Selection for Robust Learning under Label Noise [1.71982924656402]
ディープニューラルネットワーク(DNN)は、ノイズの多いラベル付きデータの存在下で記憶や過度な適合の影響を受けることが示されている。
著名なアルゴリズムのクラスは、カリキュラム学習に動機づけられたサンプル選択戦略に依存している。
本稿では,バッチ統計のみに依存するデータ依存型適応型サンプル選択手法を提案する。
論文 参考訳(メタデータ) (2021-06-29T12:10:58Z) - Efficient SVDD Sampling with Approximation Guarantees for the Decision
Boundary [7.251418581794502]
Support Vector Data Description (SVDD) は、異常と新規性検出のための一般的な1クラス分類器である。
その有効性にもかかわらず、SVDDはデータサイズに匹敵しない。
本稿では,これらの点を考慮したサンプルの選択方法について検討する。
提案手法は,SVDDサンプリングを最適化問題として,サンプリングが元の決定境界を実際に近似していることを保証する。
論文 参考訳(メタデータ) (2020-09-29T08:28:01Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Non-Adaptive Adaptive Sampling on Turnstile Streams [57.619901304728366]
カラムサブセット選択、部分空間近似、射影クラスタリング、および空間サブリニアを$n$で使用するターンタイルストリームのボリュームに対する最初の相対エラーアルゴリズムを提供する。
我々の適応的なサンプリング手法は、様々なデータ要約問題に多くの応用をもたらしており、これは最先端を改善するか、より緩和された行列列モデルで以前に研究されただけである。
論文 参考訳(メタデータ) (2020-04-23T05:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。