論文の概要: BERTtime Stories: Investigating the Role of Synthetic Story Data in Language pre-training
- arxiv url: http://arxiv.org/abs/2410.15365v2
- Date: Sun, 03 Nov 2024 09:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:09.460914
- Title: BERTtime Stories: Investigating the Role of Synthetic Story Data in Language pre-training
- Title(参考訳): BERTtime Stories: 言語事前学習における合成ストーリーデータの役割を探る
- Authors: Nikitas Theodoropoulos, Giorgos Filandrianos, Vassilis Lyberatos, Maria Lymperaiou, Giorgos Stamou,
- Abstract要約: TinyStories を用いた言語事前学習における合成物語データの効果について検討した。
TinyStoriesのサブセット上でGPT-Neoモデルをトレーニングします。
1億語未満の単語にアクセスしても、モデルは与えられたストーリーに対して高品質でオリジナルな補完を生成することができる。
- 参考スコア(独自算出の注目度): 1.8817715864806608
- License:
- Abstract: We describe our contribution to the Strict and Strict-Small tracks of the 2nd iteration of the BabyLM Challenge. The shared task is centered around efficient pre-training given data constraints motivated by human development. In response, we study the effect of synthetic story data in language pre-training using TinyStories: a recently introduced dataset of short stories. Initially, we train GPT-Neo models on subsets of TinyStories, while varying the amount of available data. We find that, even with access to less than 100M words, the models are able to generate high-quality, original completions to a given story, and acquire substantial linguistic knowledge. To measure the effect of synthetic story data, we train LTG-BERT encoder models on a combined dataset of: a subset of TinyStories, story completions generated by GPT-Neo, and a subset of the BabyLM dataset. Our experimentation reveals that synthetic data can occasionally offer modest gains, but overall have a negative influence on linguistic understanding. Our work offers an initial study on synthesizing story data in low resource settings and underscores their potential for augmentation in data-constrained language modeling. We publicly release our models and implementation on our GitHub.
- Abstract(参考訳): 本稿では,BabyLM Challengeの第2回のStrict and Strict-Smallトラックへのコントリビューションについて述べる。
共有タスクは、人間の開発によって動機付けられたデータ制約を効果的に事前学習することに集中する。
そこで本研究では,TinyStoriesを用いた言語事前学習における合成物語データの効果について検討する。
最初は、TinyStoriesのサブセットでGPT-Neoモデルをトレーニングし、利用可能なデータの量を変えました。
1億語未満の単語にアクセスしても、モデルが与えられたストーリーに対して高品質でオリジナルな完了を生成し、実質的な言語知識を得ることができることがわかった。
合成ストーリデータの効果を測定するために,TinyStoriesのサブセット,GPT-Neoが生成したストーリー補完,BabyLMデータセットのサブセットを組み合わせたデータセット上で,LTG-BERTエンコーダモデルをトレーニングする。
我々の実験では、合成データは時折緩やかな利益をもたらすが、全体としては言語学的理解に悪影響を及ぼすことが示された。
我々の研究は、低リソース環境下でのストーリーデータの合成に関する最初の研究を提供し、データ制約言語モデリングにおける拡張の可能性を強調している。
当社はモデルと実装をGitHubで公開しています。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Is Child-Directed Speech Effective Training Data for Language Models? [34.46268640655943]
GPT-2 と RoBERTa モデルを英語の子供指向音声の29万語で学習する。
子どものトレーニングデータのグローバルな発達順序付けやローカルな談話順序付けが、他のデータセットと比較して高いパフォーマンスを支えているかどうかを検証する。
これらの結果は、より良いデータから進むのではなく、子供の学習アルゴリズムが現在の言語モデリング技術よりもはるかにデータ効率が高いという仮説を支持している。
論文 参考訳(メタデータ) (2024-08-07T08:18:51Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Do Not Worry if You Do Not Have Data: Building Pretrained Language Models Using Translationese [47.45957604683302]
事前学習には大量のモノリンガルデータが必要であるが、ほとんど英語以外の言語では利用できない。
我々は、英語とIndic言語を例にとり、Webcrawled monolingual document (clean)を対象言語に翻訳する。
そして、この翻訳データに基づいて28Mと85Mのパラメータを含む言語モデルを訓練する(合成)。
下流の自然言語理解および生成タスクにおけるそれらの性能は、クリーンデータで事前訓練されたLMよりも、NLUタスクで3.56%、NLGタスクで1.51%劣っている。
論文 参考訳(メタデータ) (2024-03-20T14:41:01Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Call for Papers -- The BabyLM Challenge: Sample-efficient pretraining on
a developmentally plausible corpus [32.51325830633226]
BabyLM Challenge: 発達可能なコーパス上でのサンプル効率事前学習のための論文の募集を行う。
この共有タスクは、小規模言語モデリング、ヒューマン言語獲得、低リソースNLP、認知モデリングに関心を持つ参加者を対象としている。
論文 参考訳(メタデータ) (2023-01-27T15:52:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。