論文の概要: GLM-130B: An Open Bilingual Pre-trained Model
- arxiv url: http://arxiv.org/abs/2210.02414v2
- Date: Wed, 25 Oct 2023 05:22:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 06:24:23.272795
- Title: GLM-130B: An Open Bilingual Pre-trained Model
- Title(参考訳): GLM-130B:オープンバイリンガル事前訓練モデル
- Authors: Aohan Zeng, Xiao Liu, Zhengxiao Du, Zihan Wang, Hanyu Lai, Ming Ding,
Zhuoyi Yang, Yifan Xu, Wendi Zheng, Xiao Xia, Weng Lam Tam, Zixuan Ma, Yufei
Xue, Jidong Zhai, Wenguang Chen, Peng Zhang, Yuxiao Dong, Jie Tang
- Abstract要約: 我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。
100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。
- 参考スコア(独自算出の注目度): 56.694470924635624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce GLM-130B, a bilingual (English and Chinese) pre-trained language
model with 130 billion parameters. It is an attempt to open-source a 100B-scale
model at least as good as GPT-3 (davinci) and unveil how models of such a scale
can be successfully pre-trained. Over the course of this effort, we face
numerous unexpected technical and engineering challenges, particularly on loss
spikes and divergence. In this paper, we introduce the training process of
GLM-130B including its design choices, training strategies for both efficiency
and stability, and engineering efforts. The resultant GLM-130B model offers
significant outperformance over GPT-3 175B (davinci) on a wide range of popular
English benchmarks while the performance advantage is not observed in OPT-175B
and BLOOM-176B. It also consistently and significantly outperforms ERNIE TITAN
3.0 260B -- the largest Chinese language model -- across related benchmarks.
Finally, we leverage a unique scaling property of GLM-130B to reach INT4
quantization without post training, with almost no performance loss, making it
the first among 100B-scale models and more importantly, allowing its effective
inference on 4$\times$RTX 3090 (24G) or 8$\times$RTX 2080 Ti (11G) GPUs, the
most affordable GPUs required for using 100B-scale models. The GLM-130B model
weights are publicly accessible and its code, training logs, related toolkit,
and lessons learned are open-sourced at
\url{https://github.com/THUDM/GLM-130B/}.
- Abstract(参考訳): 我々は,130億のパラメータを持つバイリンガル(英語と中国語)事前学習言語モデルであるGLM-130Bを紹介する。
100Bスケールのモデルを少なくとも GPT-3 (davinci) と同程度にオープンソース化し、そのようなスケールのモデルがどのように事前訓練されるかを明らかにする試みである。
この取り組みを通じて、予想外の技術的およびエンジニアリング上の課題、特に損失の急増と分散に直面する。
本稿では,GLM-130Bの設計選択,効率と安定性の両面でのトレーニング戦略,エンジニアリングの取り組みなどについて紹介する。
結果として GLM-130B モデルは、OPT-175B や BLOOM-176B では性能上の優位性は見られず、幅広い英語のベンチマークで GPT-3 175B (davinci) よりも優れた性能を提供する。
また、ERNIE TITAN 3.0 260B(中国最大の言語モデル)を関連するベンチマークで一貫して大幅に上回っている。
最後に、GLM-130Bのユニークなスケーリング特性を活用して、ポストトレーニングなしでINT4量子化に到達し、パフォーマンスロスはほとんどなく、100Bスケールモデルの中では初めてのものとなり、100Bスケールモデルを使用するのに最も安価なGPUである4$\times$RTX 3090 (24G)または8$\times$RTX 2080 Ti (11G) GPUでの効果的な推論を可能にした。
GLM-130Bモデルウェイトは公開されており、コード、トレーニングログ、関連するツールキット、教訓は、 \url{https://github.com/THUDM/GLM-130B/}でオープンソース化されている。
関連論文リスト
- PLaMo-100B: A Ground-Up Language Model Designed for Japanese Proficiency [4.122864669557465]
PLaMo-100Bは,日本語の習熟度を考慮した大規模言語モデルである。
モデルは2兆トークンを使用してゼロからトレーニングされた。
ベンチマーク評価の結果,PLaMo-100Bは特に日本語のタスクにおいて良好に機能することが示唆された。
論文 参考訳(メタデータ) (2024-10-10T02:59:36Z) - GEB-1.3B: Open Lightweight Large Language Model [12.083014082506281]
GEB-1.3Bは、中国語と英語の両方で5500億のトークンで訓練された軽量な大規模言語モデル(LLM)である。
我々は, ROPE, Group-Query-Attention, FlashAttention-2などの新しいトレーニング技術を用いて, モデル性能を維持しながらトレーニングを加速する。
GEB-1.3BはMMLU、C-Eval、CMMLUなどの一般的なベンチマークで優れた性能を示し、MindLLM-1.3BやTinyLLaMA-1.1Bのような比較モデルよりも優れている。
オープンソースモデルとしてのGAB-1.3Bのリリースは、開発に重大な貢献をした
論文 参考訳(メタデータ) (2024-06-14T10:15:49Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - OPT: Open Pre-trained Transformer Language Models [99.60254017109551]
125Mから175Bのパラメータからなるデコーダのみの事前学習トランスであるOpen Pre-trained Transformers (OPT)を提案する。
OPT-175BはGPT-3に匹敵するが, 炭素フットプリントの1/7しか必要としない。
論文 参考訳(メタデータ) (2022-05-02T17:49:50Z) - GPT-NeoX-20B: An Open-Source Autoregressive Language Model [16.27825182552061]
GPT-NeoX-20Bは、Pileで訓練された200億のパラメータの自動回帰言語モデルである。
ウェイトは寛容なライセンスで、自由に公開することができる。
論文 参考訳(メタデータ) (2022-04-14T04:00:27Z) - E-LANG: Energy-Based Joint Inferencing of Super and Swift Language
Models [9.36591003178585]
本稿では,大規模高精度スーパーモデルと軽量スウィフトモデルの間での推論を分散するE-Langと呼ばれる効果的な動的推論手法を提案する。
E-Langは簡単に採用でき、アーキテクチャに依存しない。
エンコーダのみのバックボーンや分類タスクにのみ適用可能な既存の手法とは異なり,本手法はエンコーダ・デコーダ構造や,翻訳などのシーケンス・ツー・シーケンスタスクにも有効である。
論文 参考訳(メタデータ) (2022-03-01T21:21:27Z) - ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training
for Language Understanding and Generation [50.036392756981016]
GPT-3は、事前訓練された言語モデルをスケールアップすることで、その潜在能力をさらに活用できることを示した。
ERNIE 3.0という名前の統一フレームワークが、大規模な知識強化モデルの事前トレーニングのために提案された。
ERNIE 3.0は様々なNLPタスクにおいて最先端のモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-23T17:35:48Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language
Understanding and Generation [25.430130072811075]
大規模知識強化モデルの事前学習のための統合フレームワーク ERNIE 3.0 を提案する。
自動回帰ネットワークと自動エンコードネットワークを融合することで、トレーニングされたモデルを自然言語理解と生成タスクの両方に容易に適合させることができる。
我々は,テキストと大規模知識グラフからなる4TBコーパス上で,100億のパラメータでモデルを訓練した。
論文 参考訳(メタデータ) (2021-07-05T16:54:59Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。