論文の概要: The Falcon Series of Open Language Models
- arxiv url: http://arxiv.org/abs/2311.16867v1
- Date: Tue, 28 Nov 2023 15:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:51:05.347111
- Title: The Falcon Series of Open Language Models
- Title(参考訳): the falcon series of open language model(英語)
- Authors: Ebtesam Almazrouei, Hamza Alobeidli, Abdulaziz Alshamsi, Alessandro
Cappelli, Ruxandra Cojocaru, Daniel Hesslow, Julien Launay, Quentin Malartic,
Daniele Mazzotta, Badreddine Noune, Baptiste Pannier, Guilherme Penedo
- Abstract要約: さまざまな高品質コーパスで訓練された因果デコーダのみのモデルとして,7B,40B,180Bというファルコンシリーズを紹介した。
最大のモデルであるFalcon-180Bは3.5兆個のテキストトークンで訓練されている。
Falcon-180B は PaLM や Chinchilla などのモデルよりも優れており、LLaMA 2 や Inflection-1 のような同時開発モデルでも改善されている。
- 参考スコア(独自算出の注目度): 37.64767379204378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Falcon series: 7B, 40B, and 180B parameters causal
decoder-only models trained on a diverse high-quality corpora predominantly
assembled from web data. The largest model, Falcon-180B, has been trained on
over 3.5 trillion tokens of text--the largest openly documented pretraining
run. Falcon-180B significantly outperforms models such as PaLM or Chinchilla,
and improves upon concurrently developed models such as LLaMA 2 or
Inflection-1. It nears the performance of PaLM-2-Large at a reduced pretraining
and inference cost, making it, to our knowledge, one of the three best language
models in the world along with GPT-4 and PaLM-2-Large. We report detailed
evaluations, as well as a deep dive into the methods and custom tooling
employed to pretrain Falcon. Notably, we report on our custom distributed
training codebase, allowing us to efficiently pretrain these models on up to
4,096 A100s on cloud AWS infrastructure with limited interconnect. We release a
600B tokens extract of our web dataset, as well as the Falcon-7/40/180B models
under a permissive license to foster open-science and accelerate the
development of an open ecosystem of large language models.
- Abstract(参考訳): 7B, 40B, 180Bパラメーター因果デコーダのみのモデルで, Webデータから主に組み立てた高品質コーパスをトレーニングした。
最大のモデルであるfalcon-180bは3.5兆以上のテキストのトークンで訓練されている。
Falcon-180B は PaLM や Chinchilla などのモデルよりも優れており、LLaMA 2 や Inflection-1 のような同時開発モデルでも改善されている。
GPT-4 と PaLM-2-Large とともに世界で最も優れた3つの言語モデルのうちの1つである。
詳細な評価や、falconの事前トレーニングに使用するメソッドやカスタムツールの詳細について報告する。
特に、当社のカスタム分散トレーニングコードベースについて報告し、接続に制限のあるクラウドAWSインフラストラクチャ上で、これらのモデルを最大4,096 A100で効率的に事前トレーニングできるようにしました。
我々は、オープンサイエンスを育み、大規模言語モデルのオープンエコシステムの開発を加速するために、許容ライセンスの下で、Webデータセットの600Bトークン抽出とFalcon-7/40/180Bモデルをリリースします。
関連論文リスト
- Falcon2-11B Technical Report [12.473984346805011]
5兆以上のトークンでトレーニングされた基盤モデルであるFalcon2-11Bと、ビジョン・トゥ・テキストモデルであるFalcon2-11B-vlmを紹介する。
我々は,多段階アプローチによるFalcon2-11Bの訓練中に得られた知見を報告する。
また,学習期間中のバッチサイズを倍増させる効果と,学習率によるトレーニング損失のスパイクの影響を報告する。
論文 参考訳(メタデータ) (2024-07-20T14:23:15Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Xmodel-LM Technical Report [13.451816134545163]
Xmodel-LMは、約2兆トークンで事前訓練されたコンパクトで効率的な1.1B言語モデルである。
大きさは小さいものの、見事な性能を誇っている。
論文 参考訳(メタデータ) (2024-06-05T02:12:06Z) - Yi: Open Foundation Models by 01.AI [42.94680878285869]
Yiモデルファミリは、6Bおよび34B事前訓練言語モデルに基づいており、チャットモデル、200K長コンテキストモデル、深度アップスケールモデル、ビジョン言語モデルに拡張する。
私たちのベースモデルは、MMLUのような幅広いベンチマークで強力なパフォーマンスを実現し、優れたチャットモデルは、AlpacaEvalやArenaといった主要な評価プラットフォーム上で、強い人間の嗜好率を提供します。
論文 参考訳(メタデータ) (2024-03-07T16:52:49Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - The RefinedWeb Dataset for Falcon LLM: Outperforming Curated Corpora
with Web Data, and Web Data Only [48.498376125522114]
適切にフィルタリングされ、分離されたWebデータだけで、強力なモデルに繋がることを示す。
RefinedWebデータセットから600億のトークンの抽出と、それに基づいてトレーニングされた1.3/7.5Bパラメータ言語モデルをリリースします。
論文 参考訳(メタデータ) (2023-06-01T20:03:56Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。