論文の概要: Mini Minds: Exploring Bebeshka and Zlata Baby Models
- arxiv url: http://arxiv.org/abs/2311.03216v1
- Date: Mon, 6 Nov 2023 16:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:47:04.288532
- Title: Mini Minds: Exploring Bebeshka and Zlata Baby Models
- Title(参考訳): Mini Minds:BebeshkaとZlataのベビーモデルを探る
- Authors: Irina Proskurina, Guillaume Metzler, Julien Velcin
- Abstract要約: 本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
- 参考スコア(独自算出の注目度): 3.558894829990311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we describe the University of Lyon 2 submission to the
Strict-Small track of the BabyLM competition. The shared task is created with
an emphasis on small-scale language modelling from scratch on limited-size data
and human language acquisition. Dataset released for the Strict-Small track has
10M words, which is comparable to children's vocabulary size. We approach the
task with an architecture search, minimizing masked language modelling loss on
the data of the shared task. Having found an optimal configuration, we
introduce two small-size language models (LMs) that were submitted for
evaluation, a 4-layer encoder with 8 attention heads and a 6-layer decoder
model with 12 heads which we term Bebeshka and Zlata, respectively. Despite
being half the scale of the baseline LMs, our proposed models achieve
comparable performance. We further explore the applicability of small-scale
language models in tasks involving moral judgment, aligning their predictions
with human values. These findings highlight the potential of compact LMs in
addressing practical language understanding tasks.
- Abstract(参考訳): 本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
共有タスクは、スクラッチから小さな言語モデリング、限られたサイズのデータと人間の言語習得に重点を置いて作成される。
Strict-Smallトラック向けにリリースされたデータセットは、子供の語彙サイズに匹敵する1000万ワードである。
共有タスクのデータに対するマスク型言語モデル損失を最小限に抑えながら,アーキテクチャ検索によってタスクにアプローチする。
最適構成を見出し,評価のために提出された2つの小型言語モデル (LM) と8つのアテンションヘッドを持つ4層エンコーダ,12つのヘッドを持つ6層デコーダモデルを導入し,それぞれBebeshka と Zlata と呼ぶ。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現する。
さらに、道徳的判断を含むタスクにおける小規模言語モデルの適用可能性について検討し、その予測を人的価値と整合させる。
これらの知見は,実用的な言語理解課題に取り組む上で,コンパクトなlmsの可能性を浮き彫りにするものである。
関連論文リスト
- Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Too Much Information: Keeping Training Simple for BabyLMs [2.900810893770134]
本稿では,Groningen University for the BabyLM Challengeについて詳述する。
私たちは、赤ちゃんのように、言語モデルをまず単純な概念に導入し、その知識を利用してより複雑な概念を理解するべきだという考えに従います。
本研究は,多種多様なレンズ,すなわちコンテキストサイズ,語彙,およびデータの全体的な言語的複雑さを通じて,単純なテーマ・コンプレックスのこの戦略を考察する。
論文 参考訳(メタデータ) (2023-11-03T14:50:00Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models [3.1244568065126863]
より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
論文 参考訳(メタデータ) (2023-08-03T10:52:52Z) - Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on
a developmentally plausible corpus [32.51325830633226]
BabyLM Challenge: 発達可能なコーパス上でのサンプル効率事前学習のための論文の募集を行う。
この共有タスクは、小規模言語モデリング、ヒューマン言語獲得、低リソースNLP、認知モデリングに関心を持つ参加者を対象としている。
論文 参考訳(メタデータ) (2023-01-27T15:52:50Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。