論文の概要: Data filtering methods for training language models
- arxiv url: http://arxiv.org/abs/2605.29807v1
- Date: Thu, 28 May 2026 11:52:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.213626
- Title: Data filtering methods for training language models
- Title(参考訳): 学習言語モデルのためのデータフィルタリング手法
- Authors: Egor Shevchenko, Elena Bruches,
- Abstract要約: 2つの自動ラベル誤り検出方法を比較する。
ノイズレベルが低い大きなコーパスでは、フィルタリングは性能を向上しない。
ノイズの多い小さなデータセットでは、Confident LearningがF1マクロの改善を実現している。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data quality is a critical factor in the effectiveness of machine learning models. Label errors, present even in widely used benchmarks, introduce noise into training data and reduce model generalization. In this work, we conduct a comparative analysis of two automatic label error detection methods - Confident Learning and Dataset Cartography - on three Russian text classification corpora of varying size, number of classes, and domain: ru_emotion_e-culture (49,123 examples, emotion classification), RuCoLA (8,524 examples, linguistic acceptability), and TERRa (2,337 examples, textual entailment recognition). We use the pre-trained rubert-base-cased model fine-tuned on each corpus. To verify the meaningfulness of filtering, we conduct control experiments with random removal of an equivalent number of examples. Results show that the effectiveness of both methods depends strongly on dataset characteristics: on large corpora with low noise levels, filtering does not improve performance, while on small datasets with high noise, Confident Learning achieves a significant F1-macro improvement. Dataset Cartography demonstrates more conservative behavior, removing fewer examples. Across all corpora, targeted removal by both methods outperforms random removal, confirming the meaningfulness of the approaches.
- Abstract(参考訳): データ品質は、機械学習モデルの有効性において重要な要素である。
ラベルエラーは、広く使われているベンチマークにも存在し、トレーニングデータにノイズを導入し、モデルの一般化を減らす。
本研究では,2つの自動ラベル誤り検出手法 – 信頼学習とデータセットカルトグラフィー – を,異なるサイズ,クラス数,ドメインの3つのロシア語テキスト分類コーパス – ru_emotion_e-culture (49,123例,感情分類), RuCoLA (8,524例,言語受容性), TERRa (2,337例,テキスト包含認識) で比較分析する。
我々は,各コーパスに微調整を施した,事前学習したルバートベースケースモデルを用いている。
フィルタリングの有意性を検証するため,同種のサンプルをランダムに除去する制御実験を行った。
ノイズレベルが低い大きなコーパスではフィルタリングは性能を向上せず,高ノイズの小さなデータセットでは信頼学習がF1マクロ改善を実現している。
Dataset Cartographyはより保守的な振る舞いを示し、サンプルを少なくする。
すべてのコーパスにおいて、両方の手法による対象の除去はランダムな除去よりも優れており、アプローチの有意義性を確認している。
関連論文リスト
- Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。
2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。
Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文 参考訳(メタデータ) (2025-08-20T11:59:32Z) - A Closer Look at Benchmarking Self-Supervised Pre-training with Image Classification [51.35500308126506]
自己教師付き学習(SSL)は、データ自体が監視を提供する機械学習アプローチであり、外部ラベルの必要性を排除している。
SSLの分類に基づく評価プロトコルがどのように相関し、異なるデータセットのダウンストリーム性能を予測するかを検討する。
論文 参考訳(メタデータ) (2024-07-16T23:17:36Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Influence Scores at Scale for Efficient Language Data Sampling [3.072340427031969]
影響スコア」は、データの重要なサブセットを特定するために使われる。
本稿では,言語分類タスクにおける影響スコアの適用性について検討する。
論文 参考訳(メタデータ) (2023-11-27T20:19:22Z) - Enhancing Sentiment Analysis Results through Outlier Detection
Optimization [0.5439020425819]
本研究では,主観的ラベル付きテキストデータにおける外れ値の同定と対処の可能性について検討する。
本研究では,1クラス分類法であるDeep SVDDアルゴリズムを用いて,9つのテキストベース感情と感情分析データセットの外れ値を検出する。
論文 参考訳(メタデータ) (2023-11-25T18:20:43Z) - Late Stopping: Avoiding Confidently Learning from Mislabeled Examples [61.00103151680946]
そこで本研究では,DNNの長期学習プロセスを通じて,本質的な頑健な学習能力を生かした新しいフレームワークであるLatlas Stoppingを提案する。
誤ラベルとクリーンな例は、それらが一貫して正しく分類されるために必要なエポックの数に相違があることを実証的に観察する。
ベンチマークシミュレーションと実世界のノイズデータセットによる実験結果から,提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-26T12:43:25Z) - Learning with Noisy Labels by Adaptive Gradient-Based Outlier Removal [4.71154003227418]
本稿では,Adaptive GRAdient-based outlier removal を用いて,雑音のあるラベルで学習する新しい手法 AGRAを提案する。
本手法は,サンプルの集合勾配と個々のサンプル勾配を比較して,対応するサンプルがモデルに役立つかどうかを動的に決定する。
いくつかのデータセットに対する広範囲な評価はAGRAの有効性を示している。
論文 参考訳(メタデータ) (2023-06-07T15:10:01Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。