論文の概要: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?
- arxiv url: http://arxiv.org/abs/2407.00996v1
- Date: Mon, 1 Jul 2024 06:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 00:36:18.680455
- Title: Can Small Language Models Learn, Unlearn, and Retain Noise Patterns?
- Title(参考訳): 小言語モデルは騒音パターンを学習し、学習し、維持することができるか?
- Authors: Nicy Scaria, Silvester John Joseph Kennedy, Deepak Subramani,
- Abstract要約: 小型言語モデル(SLM)は、一般に大型言語モデル(LLM)のよりコンパクトなバージョンと考えられている。
本研究は,インターネット上では通常見つからない雑音を学習・保持・除去する小型言語モデルの能力について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Small Language Models (SLMs) are generally considered to be more compact versions of large language models (LLMs), typically having fewer than 7 billion parameters. This study investigates the ability of small language models to learn, retain, and subsequently eliminate noise that is typically not found on the internet, where most pretraining datasets are sourced. For this, four pre-trained SLMs were utilized: Olmo 1B, Qwen1.5 1.8B, Gemma 2B, and Phi2 2.7B. The models were instruction-tuned without noise and tested for task execution with in-context learning. Afterward, noise patterns were introduced to evaluate the models' learning and unlearning capabilities. We evaluated the models' performance at various training levels. Phi consistently excelled with word-level noise but performed the worst with character-level noise. Despite being the smallest with approximately 1 billion parameters, Olmo performed consistently well on tasks.
- Abstract(参考訳): 小型言語モデル(SLM)は一般に、70億以上のパラメータを持つ大型言語モデル(LLM)のよりコンパクトなバージョンと考えられている。
本研究では、学習、保持、そしてそれに続くノイズを除去する小さな言語モデルの能力について検討する。
このために、Olmo 1B、Qwen1.5 1.8B、Gemma 2B、Phi2 2.7Bの4つの事前訓練SLMが使用された。
モデルはノイズなしで命令調整され、コンテキスト内学習によるタスク実行のテストが行われた。
その後、モデルの学習能力と学習能力を評価するためにノイズパターンを導入した。
モデルの性能を様々な訓練レベルで評価した。
ピーは単語レベルのノイズに一貫して優れていたが、文字レベルのノイズでは最悪だった。
約10億のパラメータを持つ最小のパラメータにもかかわらず、Olmoはタスクで一貫してうまく動作した。
関連論文リスト
- Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training [54.581599828392854]
大規模言語モデルの教師付き微調整段階の代替として,Make Some Noise (MSN) トレーニングフレームワークを提案する。
トレーニング方法は、単にモデルの入力にいくつかのノイズを導入して、認知タスクを学習する。
一般領域とコード領域の両方の実験では、MSNはモデル性能を損なうことなく2.3-2.7倍の速度で推論できることを示した。
論文 参考訳(メタデータ) (2024-06-25T09:25:39Z) - Mini Minds: Exploring Bebeshka and Zlata Baby Models [3.558894829990311]
本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
論文 参考訳(メタデータ) (2023-11-06T16:01:10Z) - MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。
我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。
実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文 参考訳(メタデータ) (2023-10-30T13:33:21Z) - An Empirical Study on Noisy Label Learning for Program Understanding [22.81028693504839]
本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性について検討する。
我々は,プログラム分類,脆弱性検出,コード要約という3つのタスクにおいて,様々なNLLアプローチとディープラーニングモデルを評価する。
我々の発見は、プログラム理解におけるNLLの能力に関する洞察を与え、ソフトウェアエンジニアリングデータセットのノイズに対処する将来の作業に光を当てることができると信じています。
論文 参考訳(メタデータ) (2023-07-18T06:04:20Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。