論文の概要: Lil-Bevo: Explorations of Strategies for Training Language Models in
More Humanlike Ways
- arxiv url: http://arxiv.org/abs/2310.17591v1
- Date: Thu, 26 Oct 2023 17:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 18:34:27.835588
- Title: Lil-Bevo: Explorations of Strategies for Training Language Models in
More Humanlike Ways
- Title(参考訳): Lil-Bevo: より人間らしく訓練された言語モデルの探索
- Authors: Venkata S Govindarajan, Juan Diego Rodriguez, Kaj Bostrom, Kyle
Mahowald
- Abstract要約: 我々は、BabyLM Challengeへの応募であるLil-Bevoを紹介します。
私たちのベースラインモデルは、偶然以上に実行されましたが、より多くのデータに基づいてトレーニングされたより大きなLLMのパフォーマンスレベルよりもはるかに低いものでした。
ターゲットとするMasked Language Modelingの拡張は、モデルパフォーマンスを全般的に向上させるには至らなかったが、ターゲットとする特定のBLiMPタスクのいくつかに役立つように思われた。
- 参考スコア(独自算出の注目度): 14.480574407610424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Lil-Bevo, our submission to the BabyLM Challenge. We pretrained
our masked language models with three ingredients: an initial pretraining with
music data, training on shorter sequences before training on longer ones, and
masking specific tokens to target some of the BLiMP subtasks. Overall, our
baseline models performed above chance, but far below the performance levels of
larger LLMs trained on more data. We found that training on short sequences
performed better than training on longer sequences.Pretraining on music may
help performance marginally, but, if so, the effect seems small. Our targeted
Masked Language Modeling augmentation did not seem to improve model performance
in general, but did seem to help on some of the specific BLiMP tasks that we
were targeting (e.g., Negative Polarity Items). Training performant LLMs on
small amounts of data is a difficult but potentially informative task. While
some of our techniques showed some promise, more work is needed to explore
whether they can improve performance more than the modest gains here. Our code
is available at https://github.com/venkatasg/Lil-Bevo and out models at
https://huggingface.co/collections/venkatasg/babylm-653591cdb66f4bf68922873a
- Abstract(参考訳): 我々は、BabyLM Challengeへの応募であるLil-Bevoを紹介します。
マスク付き言語モデルの事前訓練には,音楽データによる事前訓練,短いシーケンスのトレーニング,BLiMPサブタスクのターゲットとなる特定のトークンのマスキングという3つの要素を用いた。
総じて、私たちのベースラインモデルは、チャンス以上のパフォーマンスを発揮しましたが、より多くのデータでトレーニングされたより大きなLLMのパフォーマンスレベルよりもはるかに低いです。
短いシーケンスでのトレーニングは、長いシーケンスでのトレーニングよりも優れており、音楽でのトレーニングは、パフォーマンスを極端に向上させる可能性があるが、そうであれば、効果は小さく見える。
ターゲットとするMasked Language Modelingの拡張は、モデルパフォーマンスを全般的に向上させるには至らなかったが、ターゲットとする特定のBLiMPタスク(負極性項目など)のいくつかに役立つように思われた。
少量のデータでllmを訓練することは難しいが、潜在的に有益である。
私たちのテクニックの中には、ある程度の期待を示したものもありますが、パフォーマンスをもっと改善できるかどうかを調べるには、もっと多くの作業が必要です。
私たちのコードはhttps://github.com/venkatasg/Lil-Bevo、out model at https://huggingface.co/collections/venkatasg/babylm-653591cdb66f4b68922873aで利用可能です。
関連論文リスト
- Cross-model Control: Improving Multiple Large Language Models in One-time Training [34.98931804630706]
クロスモデル制御(CMC)は、1回トレーニングで複数の大規模言語モデルを改善する手法である。
この知見に基づいて、最小数のパラメータを持つ小さな言語モデルを組み込む。
本稿では,PM-Mined という新しいトークンマッピング手法を提案する。
論文 参考訳(メタデータ) (2024-10-23T06:52:09Z) - Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。
実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文 参考訳(メタデータ) (2024-06-20T16:55:33Z) - Small Language Models Improve Giants by Rewriting Their Outputs [18.025736098795296]
本研究では,大規模言語モデル(LLM)の性能向上にトレーニングデータを活用するという課題に,微調整なしで対処する。
我々は、数発のプロンプトによってLSMから候補のプールを作成し、コンパクトモデルLM-corrector(LMCor)を用いて、これらの候補をマージして拡張出力を生成するように特別に訓練した。
4つの自然言語生成タスクの実験により、小さな LMCor モデル (250M) でさえ、LLM (62B) の少数ショット性能を大幅に改善し、マッチングや標準微調整よりも優れることを示した。
論文 参考訳(メタデータ) (2023-05-22T22:07:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - BudgetLongformer: Can we Cheaply Pretrain a SotA Legal Language Model
From Scratch? [0.0]
我々はLongformerモデルを法的なデータに基づいて効率的なRTDタスクで訓練し、より少ない計算量で効率的なLMを事前学習できることを実証する。
私たちは、小さなモデルとベースモデルの両方が、ドメイン内BillSumとドメイン外タスクのベースラインを上回っていることに気付きました。
論文 参考訳(メタデータ) (2022-11-30T16:09:20Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient
Framework [10.656788279434798]
本稿では,大規模事前学習に依存しない,シンプルで効率的な学習フレームワーク TLM を提案する。
4つの領域の8つの分類データセットにおいて、TLMは事前訓練された言語モデルよりも良い結果が得られる。
論文 参考訳(メタデータ) (2021-11-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。