Fugu-MT 論文翻訳(概要): TinyLlama: An Open-Source Small Language Model

論文の概要: TinyLlama: An Open-Source Small Language Model

arxiv url: http://arxiv.org/abs/2401.02385v1
Date: Thu, 4 Jan 2024 17:54:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-05 14:36:04.727654
Title: TinyLlama: An Open-Source Small Language Model
Title（参考訳）: TinyLlama: オープンソースの小型言語モデル
Authors: Peiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu
Abstract要約: TinyLlamaは、約3エポックの約1兆トークンで事前訓練された、コンパクトな1.1B言語モデルである。これは、既存のオープンソース言語モデルと同等のサイズで大幅に上回っている。
参考スコア（独自算出の注目度）: 9.371887998577323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present TinyLlama, a compact 1.1B language model pretrained on around 1 trillion tokens for approximately 3 epochs. Building on the architecture and tokenizer of Llama 2, TinyLlama leverages various advances contributed by the open-source community (e.g., FlashAttention), achieving better computational efficiency. Despite its relatively small size, TinyLlama demonstrates remarkable performance in a series of downstream tasks. It significantly outperforms existing open-source language models with comparable sizes. Our model checkpoints and code are publicly available on GitHub at https://github.com/jzhang38/TinyLlama.
Abstract（参考訳）: 約3エポックで約1兆トークンを事前訓練した,コンパクトな1.1B言語モデルTinyLlamaを提案する。 Llama 2のアーキテクチャとトークン化ツール上に構築されているTinyLlamaは、オープンソースコミュニティ(FlashAttentionなど)から提供された様々な進歩を活用し、より良い計算効率を実現する。 TinyLlamaは比較的小さなサイズだが、一連のダウンストリームタスクで顕著なパフォーマンスを示している。これは、同等のサイズの既存のオープンソース言語モデルを大幅に上回っている。当社のモデルチェックポイントとコードはgithubのhttps://github.com/jzhang38/tinyllama.comで公開されている。

関連論文リスト

LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-13T22:14:45Z)
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文参考訳（メタデータ） (2024-10-31T11:14:12Z)
Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。大きさは小さいものの、見事な性能を誇っている。
論文参考訳（メタデータ） (2024-06-05T02:12:06Z)
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models [103.59785165735727]
Googleの新しいGriffinアーキテクチャを使ったオープン言語モデルのファミリーであるRecurrentGemmaを紹介する。 Griffinは、言語における優れたパフォーマンスを達成するために、線形反復と局所的な注意を組み合わせる。 2Bパラメーターと9Bパラメーターを含むモデルのサイズを2つ提供し、両方のモデルに対して事前訓練および命令チューニングのバリエーションを提供する。
論文参考訳（メタデータ） (2024-04-11T15:27:22Z)
TeenyTinyLlama: open-source tiny language models trained in Brazilian Portuguese [0.0]
大規模言語モデル(LLM)は、かなり進歩した自然言語処理を持つが、その進歩は言語間ではまだ等しくなっていない。本研究では,低リソース環境での使用に適したオープン・ファウンデーション・モデルの開発について述べる。これはTeenyTinyLlamaペアで、ブラジルのポルトガル語テキスト生成用の2つのコンパクトモデルです。
論文参考訳（メタデータ） (2024-01-30T00:25:54Z)
GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。 1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文参考訳（メタデータ） (2023-10-24T23:45:57Z)
Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。 Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文参考訳（メタデータ） (2023-09-19T04:13:22Z)
TinyStories: How Small Can Language Models Be and Still Speak Coherent English? [37.65216279977461]
言語モデル(LM)は、小さくて一貫性があり、流動的なテキストを生成するのに苦労することが多い。 TinyStoriesを紹介します。これは、典型的な3～4歳の人が通常理解している単語のみを含む短いストーリーのデータセットです。我々はTinyStoriesを用いて,最先端モデルよりもはるかに小さいLMをトレーニングし,評価することができることを示す。
論文参考訳（メタデータ） (2023-05-12T20:56:48Z)
mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文参考訳（メタデータ） (2022-04-15T13:02:33Z)
A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。 Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文参考訳（メタデータ） (2022-02-26T15:53:55Z)
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。 GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。 GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文参考訳（メタデータ） (2021-12-13T18:58:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。