論文の概要: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?
- arxiv url: http://arxiv.org/abs/2407.00996v2
- Date: Thu, 14 Nov 2024 06:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:57.341993
- Title: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?
- Title(参考訳): 小言語モデルは騒音パターンを学習し、学習し、維持することができるか?
- Authors: Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani,
- Abstract要約: 小型言語モデル (SLM) は一般に大型言語モデル (LLM) のよりコンパクトなバージョンと考えられている。
本研究では,10億から30億のパラメータを持つSLMを学習し,保持し,その後にデータに存在する様々な種類のノイズを除去する能力について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Small Language Models (SLMs) are generally considered more compact versions of large language models (LLMs). This study investigates the ability of SLMs with parameters between 1 and 3 billion to learn, retain, and subsequently eliminate different types of noise present in the data. Four pre-trained SLMs were utilized for this: Olmo 1B, Qwen1.5 1.8B, Gemma 2B, and Phi2 2.7B. The models were instruction-tuned on noise-free data and tested using in-context examples to determine if they could learn noise through examples. Subsequently, noise patterns were introduced in instruction tuning to evaluate the noise learning, unlearning, and retention capabilities of the models. Olmo, the smallest model, was highly sensitive to noise, quickly adapting to noisy patterns. Phi2 resisted learning character-level and transliteration noise, likely due to its carefully curated, structured, and high-quality pretraining data. Gemma excelled with transliteration noise, likely benefiting from its multilingual pretraining. The findings can be used to develop robust training strategies for SLMs.
- Abstract(参考訳): 小型言語モデル (SLM) は一般に大型言語モデル (LLM) のよりコンパクトなバージョンと考えられている。
本研究では,10億から30億のパラメータを持つSLMを学習し,保持し,その後にデータに存在する様々な種類のノイズを除去する能力について検討する。
予備訓練された4機のSLM(Olmo 1B、Qwen1.5 1.8B、Gemma 2B、Phi2 2.7B)が使用された。
モデルは、ノイズのないデータに基づいて命令調整され、実例を通してノイズを学習できるかどうかを判断するために、コンテキスト内例を用いてテストされた。
その後、モデルのノイズ学習、未学習、保持能力を評価するために、指導調律にノイズパターンを導入した。
最小のモデルであるOlmoはノイズに非常に敏感で、すぐにノイズのパターンに適応した。
Phi2は、注意深くキュレートされ、構造化され、高品質な事前学習データのために、学習文字レベルと文字変換ノイズに抵抗した。
Gemmaは音の発音に優れており、多言語事前学習の恩恵を受けている。
この知見は、SLMの堅牢なトレーニング戦略の開発に利用できる。
関連論文リスト
- Robust Neural Processes for Noisy Data [1.7268667700090563]
ノイズによってデータが汚染された場合の文脈内学習モデルの振る舞いについて検討する。
クリーンなデータで最高のパフォーマンスを示すモデルは、ノイズの多いデータで最高のパフォーマンスを示すモデルとは異なることが分かりました。
本稿では,NPモデルの学習方法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:00:55Z) - Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training [54.581599828392854]
大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。
トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。
一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。
論文 参考訳(メタデータ) (2024-06-25T09:25:39Z) - Mini Minds: Exploring Bebeshka and Zlata Baby Models [3.558894829990311]
本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
論文 参考訳(メタデータ) (2023-11-06T16:01:10Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - An Empirical Study on Noisy Label Learning for Program Understanding [22.81028693504839]
本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性について検討する。
我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。
我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。
論文 参考訳(メタデータ) (2023-07-18T06:04:20Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。