論文の概要: How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection
- arxiv url: http://arxiv.org/abs/2603.07346v1
- Date: Sat, 07 Mar 2026 21:15:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.312958
- Title: How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection
- Title(参考訳): BERTはどの程度のノイズを扱えるか?多言語文難読度検出からの考察
- Authors: Nouran Khallaf, Serge Sharoff,
- Abstract要約: ノイズの多いトレーニングデータは、言語モデルに基づく分類器の性能を著しく低下させることができる。
文レベルの難易度検出のための多種多様な認知戦略を探索する。
また、多言語言語モデルを1つの言語で訓練し、別の言語でテストする言語間移動にも対処する。
- 参考スコア(独自算出の注目度): 1.9746060146273674
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Noisy training data can significantly degrade the performance of language-model-based classifiers, particularly in non-topical classification tasks. In this study we designed a methodological framework to assess the impact of denoising. More specifically, we explored a range of denoising strategies for sentence-level difficulty detection, using training data derived from document-level difficulty annotations obtained through noisy crowdsourcing. Beyond monolingual settings, we also address cross-lingual transfer, where a multilingual language model is trained in one language and tested in another. We evaluate several noise reduction techniques, including Gaussian Mixture Models (GMM), Co-Teaching, Noise Transition Matrices, and Label Smoothing. Our results indicate that while BERT-based models exhibit inherent robustness to noise, incorporating explicit noise detection can further enhance performance. For our smaller dataset, GMM-based noise filtering proves particularly effective in improving prediction quality by raising the Area-Under-the-Curve score from 0.52 to 0.92, or to 0.93 when de-noising methods are combined. However, for our larger dataset, the intrinsic regularisation of pre-trained language models provides a strong baseline, with denoising methods yielding only marginal gains (from 0.92 to 0.94, while a combination of two denoising methods made no contribution). Nonetheless, removing noisy sentences (about 20\% of the dataset) helps in producing a cleaner corpus with fewer infelicities. As a result we have released the largest multilingual corpus for sentence difficulty prediction: see https://github.com/Nouran-Khallaf/denoising-difficulty
- Abstract(参考訳): ノイズの多いトレーニングデータは、特に非トピック分類タスクにおいて、言語モデルに基づく分類器の性能を著しく低下させることができる。
本研究では,聴覚障害の影響を評価するための方法論的枠組みを考案した。
より具体的には、ノイズの多いクラウドソーシングによって得られた文書レベルの難易度アノテーションから得られたトレーニングデータを用いて、文レベルの難易度検出のための様々な難易度判定戦略について検討した。
モノリンガル設定以外にも、多言語言語モデルがひとつの言語でトレーニングされ、別の言語でテストされる、言語間転送にも対処しています。
本稿では,ガウス混合モデル(GMM),コ・ティーチング,ノイズ遷移行列,ラベル平滑化など,いくつかのノイズ低減手法を評価する。
以上の結果から,BERTモデルではノイズに固有のロバスト性を示すが,明示的なノイズ検出を取り入れることで性能が向上することが示唆された。
より小さなデータセットの場合,GMMに基づくノイズフィルタリングは,エリアアンダー・ザ・カーブのスコアを0.52から0.92、あるいはデノイズ法を組み合わせれば0.93に引き上げることで,予測品質の向上に特に有効であることを示す。
しかし、我々のより大きなデータセットでは、事前訓練された言語モデルの本質的な正規化は強力なベースラインを提供し、デノナイジング法は限界利得(0.92から0.94まで)しか得られず、2つのデノナイジング法の組み合わせは寄与しなかった。
それでも、ノイズの多い文(データセットの約20%)を削除することは、よりクリーンなコーパスを作るのに役立ちます。
その結果、文の難易度予測のための最大の多言語コーパスをリリースした:https://github.com/Nouran-Khallaf/denoising-difficultyを参照。
関連論文リスト
- Can Small Language Models Learn, Unlearn, and Retain Noise Patterns? [0.0]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わるコンパクトで実用的な代替品である
本研究では,10億から30億のパラメータを持つSLMを学習し,保持し,その後に異なる種類のノイズを除去する能力について検討した。
論文 参考訳(メタデータ) (2024-07-01T06:22:38Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Instance Regularization for Discriminative Language Model Pre-training [108.41891836796366]
本研究は,言語モデル事前学習における劣化文から原文を復元する複雑性を推定することを提案する。
自然言語理解と読解のベンチマークによる実験結果から,本手法は事前学習の効率,有効性,堅牢性を向上することが示された。
論文 参考訳(メタデータ) (2022-10-11T14:16:37Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [71.8462682319137]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Understanding Model Robustness to User-generated Noisy Texts [2.958690090551675]
NLPでは、スペルエラーなどの自然発生ノイズによってモデル性能が劣化することが多い。
本稿では,文法的誤り訂正コーパスから統計的に誤りをモデル化する。
論文 参考訳(メタデータ) (2021-10-14T14:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。