論文の概要: ToddlerBERTa: Exploiting BabyBERTa for Grammar Learning and Language
Understanding
- arxiv url: http://arxiv.org/abs/2308.16336v1
- Date: Wed, 30 Aug 2023 21:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 18:18:08.509419
- Title: ToddlerBERTa: Exploiting BabyBERTa for Grammar Learning and Language
Understanding
- Title(参考訳): ToddlerBERTa:文法学習と言語理解のためのBabyBERTaの爆発
- Authors: Omer Veysel Cagatan
- Abstract要約: 本稿では,BabyBERTaのような言語モデルであるToddlerBERTaについて紹介する。
より小さなモデルは特定のタスクで優れているのに対して、大きなモデルは実質的なデータでうまく機能する。
ToddlerBERTaは、最先端のRoBERTaベースに対抗して、賞賛に値するパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ToddlerBERTa, a BabyBERTa-like language model, exploring its
capabilities through five different models with varied hyperparameters.
Evaluating on BLiMP, SuperGLUE, MSGS, and a Supplement benchmark from the
BabyLM challenge, we find that smaller models can excel in specific tasks,
while larger models perform well with substantial data. Despite training on a
smaller dataset, ToddlerBERTa demonstrates commendable performance, rivalling
the state-of-the-art RoBERTa-base. The model showcases robust language
understanding, even with single-sentence pretraining, and competes with
baselines that leverage broader contextual information. Our work provides
insights into hyperparameter choices, and data utilization, contributing to the
advancement of language models.
- Abstract(参考訳): 本稿では,BabyBERTaのような言語モデルであるToddlerBERTaについて紹介する。
BLiMP, SuperGLUE, MSGS, およびBabyLMチャレンジからのサプリメントのベンチマークから, より小さなモデルでは特定のタスクに優れるが, 大きなモデルでは大きなデータでよく機能することがわかった。
より小さなデータセットでのトレーニングにもかかわらず、ToddlerBERTaは、最先端のRoBERTaベースに対抗して、賞賛できるパフォーマンスを示している。
このモデルは、単一文事前学習であっても、堅牢な言語理解を示し、より広い文脈情報を活用するベースラインと競合する。
我々の研究は、ハイパーパラメータの選択とデータ利用に関する洞察を提供し、言語モデルの進歩に寄与します。
関連論文リスト
- Mini Minds: Exploring Bebeshka and Zlata Baby Models [3.558894829990311]
本稿では,リヨン2大学がBabyLMコンペティションのStrict-Smallトラックに応募したことを述べる。
評価のために提出された2つの小型言語モデル(LM)を紹介する。
ベースラインLMの半分のスケールであるにもかかわらず、提案したモデルは同等の性能を実現している。
論文 参考訳(メタデータ) (2023-11-06T16:01:10Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Baby's CoThought: Leveraging Large Language Models for Enhanced
Reasoning in Compact Models [3.1244568065126863]
より小さな"ベイビー"言語モデル(BabyLM)を効率的に学習する"CoThought"パイプラインを提案する。
我々のパイプラインは、GPT-3.5-turboを使って1億以下のデータセットを再構成し、タスク指向のヒューマン可読テキストに変換する。
私たちのBabyLMは、言語、NLU、質問応答タスクにおいて、バニラRoBERTaよりも3ポイント以上優れています。
論文 参考訳(メタデータ) (2023-08-03T10:52:52Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - conSultantBERT: Fine-tuned Siamese Sentence-BERT for Matching Jobs and
Job Seekers [2.208694022993555]
解析された履歴データのノイズ、異なるデータソースの異種性、およびクロスリンガル性および多言語性がドメイン固有の課題であることを示す。
我々は、大規模な実世界と高品質のデータセットを使用して、当社のスタッフコンサルタントによってラベル付けされた270,000回の再開空白ペアを使用して、conSultantBERT(conSultantBERT)と呼ばれるSiamese Sentence Siamese-BERT(SBERT)モデルを微調整することで、これらの課題に対処する。
我々の微調整モデルはTF-IDF重み付き特徴ベクトルとBERT埋め込みに依存する教師なしベースラインと教師なしベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-14T07:57:05Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - lamBERT: Language and Action Learning Using Multimodal BERT [0.1942428068361014]
本研究では,マルチモーダルBERT(lamBERT)モデルを用いた言語と行動学習を提案する。
実験は、エージェントが適切に振る舞うために言語理解を必要とするグリッド環境で行われる。
lamBERTモデルは、他のモデルと比較してマルチタスク設定や転送設定において高い報酬を得た。
論文 参考訳(メタデータ) (2020-04-15T13:54:55Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。