論文の概要: TinyLlama: An Open-Source Small Language Model
- arxiv url: http://arxiv.org/abs/2401.02385v2
- Date: Tue, 4 Jun 2024 02:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 13:37:33.644629
- Title: TinyLlama: An Open-Source Small Language Model
- Title(参考訳): TinyLlama: オープンソースの小型言語モデル
- Authors: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu,
- Abstract要約: TinyLlamaは、約3エポックの約1兆トークンで事前訓練された、コンパクトな1.1B言語モデルである。
これは、既存のオープンソース言語モデルと同等のサイズで大幅に上回っている。
- 参考スコア(独自算出の注目度): 8.735539303330132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention and Lit-GPT), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.
- Abstract(参考訳): 約3エポックで約1兆トークンを事前訓練した,コンパクトな1.1B言語モデルTinyLlamaを提案する。
Llama 2のアーキテクチャとトークン化ツール上に構築されているTinyLlamaは、オープンソースコミュニティ(例:FlashAttention、Lit-GPT)が貢献する様々な進歩を活用し、より良い計算効率を実現する。
TinyLlamaは比較的小さなサイズだが、一連のダウンストリームタスクで顕著なパフォーマンスを示している。
これは、既存のオープンソース言語モデルと同等のサイズで大幅に上回っている。
私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/jzhang38/TinyLlama.comで公開されています。
関連論文リスト
- GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。
我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文 参考訳(メタデータ) (2024-10-31T11:14:12Z) - Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。
大きさは小さいものの、見事な性能を誇っている。
論文 参考訳(メタデータ) (2024-06-05T02:12:06Z) - RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。
Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。
2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文 参考訳(メタデータ) (2024-04-11T15:27:22Z) - TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。
本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。
これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文 参考訳(メタデータ) (2024-01-30T00:25:54Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - TinyStories: How Small Can Language Models Be and Still Speak Coherent
English? [37.65216279977461]
言語モデル(LM)は、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。
TinyStoriesを紹介します。これは、典型的な3~4歳の人が通常理解している単語のみを含む短いストーリーのデータセットです。
我々はTinyStoriesを用いて,最先端モデルよりもはるかに小さいLMをトレーニングし,評価することができることを示す。
論文 参考訳(メタデータ) (2023-05-12T20:56:48Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。