論文の概要: Rethinking Optimization and Architecture for Tiny Language Models
- arxiv url: http://arxiv.org/abs/2402.02791v1
- Date: Mon, 5 Feb 2024 07:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:21:58.607269
- Title: Rethinking Optimization and Architecture for Tiny Language Models
- Title(参考訳): 小さな言語モデルのための最適化とアーキテクチャの再考
- Authors: Yehui Tang, Fangcheng Liu, Yunsheng Ni, Yuchuan Tian, Zheyuan Bai,
Yi-Qi Hu, Sichao Liu, Shangling Jui, Kai Han, Yunhe Wang
- Abstract要約: モバイルデバイスにおける言語モデルの適用は、計算とメモリコストに大きな課題に直面している。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
いくつかの設計公式は、特に小さな言語モデルに有効であることが実証的に証明されている。
PanGu-$pi$-1.5B Proは、より大きなモデルサイズを持つ様々なSOTAモデルを超え、その優れた性能を検証する。
- 参考スコア(独自算出の注目度): 39.892066839422796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The power of large language models (LLMs) has been demonstrated through
numerous data and computing resources. However, the application of language
models on mobile devices is facing huge challenge on the computation and memory
costs, that is, tiny language models with high performance are urgently
required. Limited by the highly complex training process, there are many
details for optimizing language models that are seldom studied carefully. In
this study, based on a tiny language model with 1B parameters, we carefully
design a series of empirical study to analyze the effect of each component.
Three perspectives are mainly discussed, i.e., neural architecture, parameter
initialization, and optimization strategy. Several design formulas are
empirically proved especially effective for tiny language models, including
tokenizer compression, architecture tweaking, parameter inheritance and
multiple-round training. Then we train PanGu-$\pi$-1B Pro and PanGu-$\pi$-1.5B
Pro on 1.6T multilingual corpora, following the established formulas.
Experimental results demonstrate the improved optimization and architecture
yield a notable average improvement of 8.87 on benchmark evaluation sets for
PanGu-$\pi$-1B Pro. Besides, PanGu-$\pi$-1.5B Pro surpasses a range of SOTA
models with larger model sizes, validating its superior performance. The code
will be released soon (https://github.com/YuchuanTian/RethinkTinyLM).
- Abstract(参考訳): 大規模言語モデル(llm)のパワーは多くのデータと計算リソースを通して実証されている。
しかし,モバイル端末上での言語モデルの適用は,計算コストやメモリコストの面で大きな課題に直面している。
高度に複雑な訓練プロセスによって制限された言語モデルの最適化には、慎重に研究されることがほとんどない多くの詳細がある。
本研究では,1Bパラメータを持つ小さな言語モデルに基づいて,各成分の効果を分析するための実験的な研究を慎重に設計する。
主にニューラルアーキテクチャ、パラメータ初期化、最適化戦略という3つの視点が議論されている。
いくつかの設計式は、トークン圧縮、アーキテクチャの微調整、パラメータ継承、複数ラウンドトレーニングなど、小さな言語モデルに特に効果的であることが実証されている。
次に、1.6T多言語コーパス上でPanGu-$\pi$-1B ProとPanGu-$\pi$-1.5B Proを訓練する。
実験の結果、PanGu-$\pi$-1B Proのベンチマーク評価セットにおいて、最適化とアーキテクチャの改善により8.87の顕著な平均改善が得られた。
さらに、PanGu-$\pi$-1.5B Proは、モデルサイズが大きいSOTAモデルの範囲を超え、その優れた性能を検証する。
コードはまもなくリリースされる(https://github.com/YuchuanTian/RethinkTinyLM)。
関連論文リスト
- PanGu-$\pi$: Enhancing Language Model Architectures via Nonlinearity
Compensation [97.78045712375047]
大規模言語モデル(LLM)のための新しい効率的なモデルアーキテクチャを提案する。
そこで,PanGu-$pi$-7Bは,約10%の推論速度を持つベンチマークに匹敵する性能が得られることを示す。
さらに,PanGu-$pi$-7Bを金融法と法律の高価値領域に導入し,実践的応用のためにYunShanというLLMを開発した。
論文 参考訳(メタデータ) (2023-12-27T11:49:24Z) - Contrastive Alignment of Vision to Language Through Parameter-Efficient
Transfer Learning [60.26952378997713]
コントラスト的視覚言語モデル(例えばCLIP)は、コントラスト的トレーニングを通じて視覚モデルと言語モデルの全てのパラメータを更新することによって作成される。
パラメータ更新の最小セット($7%)が、フルモデルトレーニングと同じパフォーマンスを実現可能であることを示す。
既存の知識がパラメータ効率のトレーニングにおいてより強く保存されていることを示す。
論文 参考訳(メタデータ) (2023-03-21T14:12:08Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z) - Analyzing Bagging Methods for Language Models [0.5161531917413708]
我々は,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズで大まかに等価なタグ付きアンサンブルを比較した。
我々のアンサンブル法は、少なくとも1つのLMベースラインとほぼ同等である。
論文 参考訳(メタデータ) (2022-07-19T06:30:37Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Probing Structured Pruning on Multilingual Pre-trained Models: Settings,
Algorithms, and Efficiency [62.0887259003594]
本研究では,多言語事前学習言語モデルにおける構造化プルーニングの3つの側面について検討する。
9つの下流タスクの実験は、いくつかの反直観的な現象を示している。
モデルを一度トレーニングし、推論時に異なるモデルサイズに適応できるシンプルなアプローチであるDynamic Sparsificationを紹介します。
論文 参考訳(メタデータ) (2022-04-06T06:29:52Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。