論文の概要: TinyLlama: An Open-Source Small Language Model
- arxiv url: http://arxiv.org/abs/2401.02385v1
- Date: Thu, 4 Jan 2024 17:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:36:04.727654
- Title: TinyLlama: An Open-Source Small Language Model
- Title(参考訳): TinyLlama: オープンソースの小型言語モデル
- Authors: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
- Abstract要約: TinyLlamaは、約3エポックの約1兆トークンで事前訓練された、コンパクトな1.1B言語モデルである。
これは、既存のオープンソース言語モデルと同等のサイズで大幅に上回っている。
- 参考スコア(独自算出の注目度): 9.371887998577323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present TinyLlama, a compact 1.1B language model pretrained on around 1
trillion tokens for approximately 3 epochs. Building on the architecture and
tokenizer of Llama 2, TinyLlama leverages various advances contributed by the
open-source community (e.g., FlashAttention), achieving better computational
efficiency. Despite its relatively small size, TinyLlama demonstrates
remarkable performance in a series of downstream tasks. It significantly
outperforms existing open-source language models with comparable sizes. Our
model checkpoints and code are publicly available on GitHub at
https://github.com/jzhang38/TinyLlama.
- Abstract(参考訳): 約3エポックで約1兆トークンを事前訓練した,コンパクトな1.1B言語モデルTinyLlamaを提案する。
Llama 2のアーキテクチャとトークン化ツール上に構築されているTinyLlamaは、オープンソースコミュニティ(FlashAttentionなど)から提供された様々な進歩を活用し、より良い計算効率を実現する。
TinyLlamaは比較的小さなサイズだが、一連のダウンストリームタスクで顕著なパフォーマンスを示している。
これは、同等のサイズの既存のオープンソース言語モデルを大幅に上回っている。
当社のモデルチェックポイントとコードはgithubのhttps://github.com/jzhang38/tinyllama.comで公開されている。
関連論文リスト
- TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。
本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。
これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文 参考訳(メタデータ) (2024-01-30T00:25:54Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。
コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文 参考訳(メタデータ) (2023-11-30T15:06:50Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - TinyStories: How Small Can Language Models Be and Still Speak Coherent
English? [37.65216279977461]
言語モデル(LM)は、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。
TinyStoriesを紹介します。これは、典型的な3~4歳の人が通常理解している単語のみを含む短いストーリーのデータセットです。
我々はTinyStoriesを用いて,最先端モデルよりもはるかに小さいLMをトレーニングし,評価することができることを示す。
論文 参考訳(メタデータ) (2023-05-12T20:56:48Z) - StarCoder: may the source be with you! [79.93915935620798]
BigCodeコミュニティでは、StarCoderとStarCoderBaseを紹介している。
StarCoderBaseは、寛容にライセンスされたGitHubリポジトリの大規模なコレクションであるThe Stackからソースされた1兆のトークンに基づいてトレーニングされている。
論文 参考訳(メタデータ) (2023-05-09T08:16:42Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。