論文の概要: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?
- arxiv url: http://arxiv.org/abs/2407.00996v3
- Date: Tue, 27 May 2025 05:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 14:37:18.370474
- Title: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?
- Title(参考訳): 小言語モデルは騒音パターンを学習し、学習し、維持することができるか?
- Authors: Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani,
- Abstract要約: 小型言語モデル (SLM) は大規模言語モデル (LLM) に代わるコンパクトで実用的な代替品である
本研究では,10億から30億のパラメータを持つSLMを学習し,保持し,その後に異なる種類のノイズを除去する能力について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: With the growing need for efficient language models in resource-constrained environments, Small Language Models (SLMs) have emerged as compact and practical alternatives to Large Language Models (LLMs). While studies have explored noise handling in LLMs, little is known about how SLMs handle noise, a critical factor for their reliable real-world deployment. This study investigates the ability of SLMs with parameters between 1 and 3 billion to learn, retain, and subsequently eliminate different types of noise (word flip, character flip, transliteration, irrelevant content, and contradictory information). Four pretrained SLMs (Olmo 1B, Qwen1.5 1.8B, Gemma1.1 2B, and Phi2 2.7B) were instruction-tuned on noise-free data and tested with in-context examples to assess noise learning. Subsequently, noise patterns were introduced in instruction tuning to assess their adaptability. The results revealed differences in how models handle noise, with smaller models like Olmo quickly adapting to noise patterns. Phi2's carefully curated, structured, and high-quality pretraining data enabled resistance to character level, transliteration, and counterfactual noise, while Gemma adapted successfully to transliteration noise through its multilingual pretraining. Subsequent clean data training effectively mitigated noise effects. These findings provide practical strategies for developing robust SLMs for real-world applications.
- Abstract(参考訳): 資源制約のある環境での効率的な言語モデルの必要性の高まりに伴い、Small Language Models (SLM) はLarge Language Models (LLM) のコンパクトで実用的な代替品として登場した。
LLMにおけるノイズハンドリングの研究は行われているが、SLMがいかにノイズを扱うかは分かっていない。
本研究では,10億から30億のパラメータを持つSLMを学習・保持し,その後に異なる種類のノイズ(単語フリップ,文字フリップ,音訳,無関係内容,矛盾情報)を除去する能力について検討する。
事前訓練された4つのSLM(Olmo 1B、Qwen1.5 1.8B、Gemma1.1 2B、Phi2 2.7B)は、ノイズのないデータに基づいて訓練され、ノイズ学習を評価するためにコンテキスト内サンプルを用いてテストされた。
その後、適応性を評価するための指導調律にノイズパターンを導入した。
結果は、Olmoのような小さなモデルがすぐにノイズパターンに適応するのに対し、モデルがどのようにノイズを処理するかの違いを明らかにした。
Phi2の注意深くキュレートされ、構造化され、高品質な事前訓練データにより文字レベル、音訳、反ファクトノイズへの耐性が実現され、Gemmaは多言語事前訓練を通じて音訳ノイズに適応した。
その後のクリーンデータトレーニングは、ノイズ効果を効果的に軽減した。
これらの知見は、実世界のアプリケーションのための堅牢なSLMを開発するための実践的戦略を提供する。
関連論文リスト
- Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Denoising-Aware Contrastive Learning for Noisy Time Series [35.97130925600067]
時系列自己教師型学習(SSL)は、ラベルへの依存を軽減するために事前トレーニングのためにラベル付きデータを活用することを目的としている。
本稿では,表現中の雑音を軽減し,各サンプルに対して適切な復調法を自動選択するDenoising-Aware contrastive Learning (DECL)を提案する。
論文 参考訳(メタデータ) (2024-06-07T04:27:32Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - An Empirical Study on Noisy Label Learning for Program Understanding [22.81028693504839]
本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性について検討する。
我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。
我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。
論文 参考訳(メタデータ) (2023-07-18T06:04:20Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Identifying Hard Noise in Long-Tailed Sample Distribution [76.16113794808001]
NLT(Noisy Long-Tailed Classification)を紹介する。
ほとんどのノイズ除去法は、ハードノイズを特定するのに失敗する。
我々はH2E(Hard-to-Easy)と呼ばれる反復的な雑音学習フレームワークを設計する。
論文 参考訳(メタデータ) (2022-07-27T09:03:03Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unpaired Learning of Deep Image Denoising [80.34135728841382]
本稿では,自己指導型学習と知識蒸留を取り入れた2段階の手法を提案する。
自己教師型学習では,実雑音の画像のみから視覚を学習するための拡張型盲点ネットワーク(D-BSN)を提案する。
実験の結果,本手法は合成ノイズ画像と実世界のノイズ画像の両方で良好に機能することがわかった。
論文 参考訳(メタデータ) (2020-08-31T16:22:40Z) - Contextual Text Denoising with Masked Language Models [21.923035129334373]
そこで本研究では,既使用マスキング言語モデルに基づく文脈記述型音声認識アルゴリズムを提案する。
提案アルゴリズムはモデルの再学習を必要とせず,任意のNLPシステムに統合可能である。
論文 参考訳(メタデータ) (2019-10-30T18:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。