論文の概要: Too Much Information: Keeping Training Simple for BabyLMs
- arxiv url: http://arxiv.org/abs/2311.01955v1
- Date: Fri, 3 Nov 2023 14:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 13:59:56.647849
- Title: Too Much Information: Keeping Training Simple for BabyLMs
- Title(参考訳): 情報過剰:ベイビーフィルムのトレーニングをシンプルに保つ
- Authors: Lukas Edman and Lisa Bylinina
- Abstract要約: 本稿では,Groningen University for the BabyLM Challengeについて詳述する。
私たちは、赤ちゃんのように、言語モデルをまず単純な概念に導入し、その知識を利用してより複雑な概念を理解するべきだという考えに従います。
本研究は,多種多様なレンズ,すなわちコンテキストサイズ,語彙,およびデータの全体的な言語的複雑さを通じて,単純なテーマ・コンプレックスのこの戦略を考察する。
- 参考スコア(独自算出の注目度): 2.900810893770134
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper details the work of the University of Groningen for the BabyLM
Challenge. We follow the idea that, like babies, language models should be
introduced to simpler concepts first and build off of that knowledge to
understand more complex concepts. We examine this strategy of
simple-then-complex through a variety of lenses, namely context size,
vocabulary, and overall linguistic complexity of the data. We find that only
one, context size, is truly beneficial to training a language model. However
this simple change to context size gives us improvements of 2 points on average
on (Super)GLUE tasks, 1 point on MSGS tasks, and 12\% on average on BLiMP
tasks. Our context-limited model outperforms the baseline that was trained on
10$\times$ the amount of data.
- Abstract(参考訳): 本稿では,Groningen University for the BabyLM Challengeについて詳述する。
私たちは、赤ちゃんのように、言語モデルをまず単純な概念に導入し、その知識を利用してより複雑な概念を理解するべきだという考えに従います。
本研究は,多種多様なレンズ,すなわちコンテキストサイズ,語彙,およびデータの全体的な言語的複雑さを通じて,単純テン複合のこの戦略を検討する。
言語モデルのトレーニングに本当に有益なのは,コンテキストサイズだけなのです。
しかし、この単純なコンテキストサイズの変更により、(Super)GLUEタスクでは平均2ポイント、MSGSタスクでは1ポイント、BLiMPタスクでは平均12パーセントの改善が得られます。
私たちのコンテキスト限定モデルは、10$\times$のデータ量でトレーニングされたベースラインよりも優れています。
関連論文リスト
- Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
本稿では,出力確率と事前学習データ頻度の相関を計測する,記憶化,分布記憶化という拡張概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 記憶がより大きな役割を担い, 一般化が, より困難で推論に基づくタスクの鍵であることを示す。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - TriSum: Learning Summarization Ability from Large Language Models with Structured Rationale [66.01943465390548]
本稿では,大規模言語モデルのテキスト要約能力を,コンパクトで局所的なモデルに抽出するフレームワークであるTriSumを紹介する。
本手法は,様々なベンチマーク上での局所モデル性能を向上させる。
また、要約の合理性に関する洞察を提供することで、解釈可能性も向上する。
論文 参考訳(メタデータ) (2024-03-15T14:36:38Z) - Learning to Reduce: Optimal Representations of Structured Data in
Prompting Large Language Models [42.16047343029512]
大規模言語モデル(LLM)は汎用AIエージェントとして広く利用されている。
本稿では,入力コンテキストの縮小バージョンを生成するために,言語モデルを微調整するフレームワークであるLearning to Reduceを提案する。
入力コンテキストから関連する証拠を選択する際に,本モデルが同等の精度を達成することを示す。
論文 参考訳(メタデータ) (2024-02-22T00:41:23Z) - Mini Minds: Exploring Bebeshka and Zlata Baby Models [3.558894829990311]
本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
論文 参考訳(メタデータ) (2023-11-06T16:01:10Z) - Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models [3.1244568065126863]
より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
論文 参考訳(メタデータ) (2023-08-03T10:52:52Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。