論文の概要: TinyStories: How Small Can Language Models Be and Still Speak Coherent
English?
- arxiv url: http://arxiv.org/abs/2305.07759v2
- Date: Wed, 24 May 2023 23:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 19:59:21.756106
- Title: TinyStories: How Small Can Language Models Be and Still Speak Coherent
English?
- Title(参考訳): TinyStories: 言語モデルはどんなに小さくてもコヒーレントな英語を話せるか?
- Authors: Ronen Eldan and Yuanzhi Li
- Abstract要約: 言語モデル(LM)は、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。
TinyStoriesを紹介します。これは、典型的な3~4歳の人が通常理解している単語のみを含む短いストーリーのデータセットです。
我々はTinyStoriesを用いて,最先端モデルよりもはるかに小さいLMをトレーニングし,評価することができることを示す。
- 参考スコア(独自算出の注目度): 37.65216279977461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) are powerful tools for natural language processing, but
they often struggle to produce coherent and fluent text when they are small.
Models with around 125M parameters such as GPT-Neo (small) or GPT-2 (small) can
rarely generate coherent and consistent English text beyond a few words even
after extensive training. This raises the question of whether the emergence of
the ability to produce coherent English text only occurs at larger scales (with
hundreds of millions of parameters or more) and complex architectures (with
many layers of global attention).
In this work, we introduce TinyStories, a synthetic dataset of short stories
that only contain words that a typical 3 to 4-year-olds usually understand,
generated by GPT-3.5 and GPT-4. We show that TinyStories can be used to train
and evaluate LMs that are much smaller than the state-of-the-art models (below
10 million total parameters), or have much simpler architectures (with only one
transformer block), yet still produce fluent and consistent stories with
several paragraphs that are diverse and have almost perfect grammar, and
demonstrate reasoning capabilities.
We also introduce a new paradigm for the evaluation of language models: We
suggest a framework which uses GPT-4 to grade the content generated by these
models as if those were stories written by students and graded by a (human)
teacher. This new paradigm overcomes the flaws of standard benchmarks which
often requires the model's output to be very structures, and moreover provides
a multidimensional score for the model, providing scores for different
capabilities such as grammar, creativity and consistency.
We hope that TinyStories can facilitate the development, analysis and
research of LMs, especially for low-resource or specialized domains, and shed
light on the emergence of language capabilities in LMs.
- Abstract(参考訳): 言語モデル(LM)は自然言語処理の強力なツールであるが、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。
gpt-neo (small) や gpt-2 (small) といった125mのパラメータを持つモデルは、広範なトレーニングの後でも、数ワードを超える一貫性のある英語テキストを生成することは滅多にない。
これは、コヒーレントな英語テキストを生成する能力の出現が、より大きなスケール(数億以上のパラメータを持つ)と複雑なアーキテクチャ(多くの世界的注目層を持つ)でのみ起こるのかという疑問を提起する。
本稿では,典型的な3~4歳児が通常理解している単語のみを含む,短い物語の合成データセットであるTinyStoriesを紹介し,GPT-3.5とGPT-4で生成する。
TinyStoriesは、最先端モデル(総パラメータ1000万以下)よりもはるかに小さいLMをトレーニングし、評価したり、よりシンプルなアーキテクチャ(トランスフォーマーブロックは1つだけ)を持つことができるが、多様でほぼ完璧な文法を持つ複数の段落で流動的で一貫性のあるストーリーを生成し、推論能力を示すことができる。
また,言語モデル評価のための新しいパラダイムを提案する。我々は,gpt-4を用いてこれらのモデルによって生成されたコンテンツを,あたかも学生が書き,(人間)教師によって格付けされた物語であるかのように評価するフレームワークを提案する。
この新しいパラダイムは、しばしばモデルの出力が非常に構造的であることを要求する標準ベンチマークの欠陥を克服し、さらに、モデルの多次元スコアを提供し、文法、創造性、一貫性といった様々な機能に対するスコアを提供する。
TinyStoriesは、特に低リソースまたは特殊なドメインにおいて、LMの開発、分析、研究を容易にし、LMにおける言語能力の出現に光を当てることを望む。
関連論文リスト
- Generative Model for Less-Resourced Language with 1 billion parameters [0.0]
GaMS 1B - 10億のパラメータを持つスロベニアの生成モデル。
我々はスロベニア語、クロアチア語、英語に適応した新しいトークンライザを開発した。
我々は,Slovene ベンチマークスイートと生成文単純化タスク SENTA から,いくつかの分類データセットを用いてモデルを評価した。
論文 参考訳(メタデータ) (2024-10-09T13:59:34Z) - Verbing Weirds Language (Models): Evaluation of English Zero-Derivation in Five LLMs [45.906366638174624]
本稿では,変換に関する大規模言語モデルの振る舞いに関する最初の研究を報告する。
本研究では,モデルが音声の非典型的部分を持つ構成において,単語よりも一般化できる程度をテストするタスクを設計する。
GPT-4 は GPT-3.5 に次いでタスク上で最高の性能を発揮するが,オープンソースの言語モデルでもそれを実現することができる。
論文 参考訳(メタデータ) (2024-03-26T16:45:27Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - It's Not Just Size That Matters: Small Language Models Are Also Few-Shot
Learners [14.264737570114631]
GPT-3に類似した性能は、よりグリーンな言語モデルで得られることを示す。
我々は、小さな言語モデルで自然言語理解を成功させるために必要な重要な要素を同定する。
論文 参考訳(メタデータ) (2020-09-15T14:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。