論文の概要: BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
- arxiv url: http://arxiv.org/abs/2309.11568v1
- Date: Wed, 20 Sep 2023 18:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 18:02:27.263199
- Title: BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model
- Title(参考訳): BTLM-3B-8K: 3Bパラメータモデルにおける7Bパラメータ性能
- Authors: Nolan Dey and Daria Soboleva and Faisal Al-Khateeb and Bowen Yang and
Ribhu Pathria and Hemant Khachane and Shaheer Muhammad and Zhiming (Charles)
Chen and Robert Myers and Jacob Robert Steeves and Natalia Vassilieva and
Marvin Tom and Joel Hestness
- Abstract要約: BTLM-3B-8Kは、最先端の30億パラメータのオープンソース言語モデルである。
既存の3Bパラメーターモデルをダウンストリームタスクで2-5.5%上回る。
7Bモデルよりも2.5倍の推論計算を要し、モバイルとエッジデバイスで強力な言語モデルへのアクセスをオープン化するのに役立ちます。
- 参考スコア(独自算出の注目度): 7.130462775274312
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the Bittensor Language Model, called "BTLM-3B-8K", a new
state-of-the-art 3 billion parameter open-source language model. BTLM-3B-8K was
trained on 627B tokens from the SlimPajama dataset with a mixture of 2,048 and
8,192 context lengths. BTLM-3B-8K outperforms all existing 3B parameter models
by 2-5.5% across downstream tasks. BTLM-3B-8K is even competitive with some 7B
parameter models. Additionally, BTLM-3B-8K provides excellent long context
performance, outperforming MPT-7B-8K and XGen-7B-8K on tasks up to 8,192
context length. We trained the model on a cleaned and deduplicated SlimPajama
dataset; aggressively tuned the \textmu P hyperparameters and schedule; used
ALiBi position embeddings; and adopted the SwiGLU nonlinearity.
On Hugging Face, the most popular models have 7B parameters, indicating that
users prefer the quality-size ratio of 7B models. Compacting the 7B parameter
model to one with 3B parameters, with little performance impact, is an
important milestone. BTLM-3B-8K needs only 3GB of memory with 4-bit precision
and takes 2.5x less inference compute than 7B models, helping to open up access
to a powerful language model on mobile and edge devices. BTLM-3B-8K is
available under an Apache 2.0 license on Hugging Face:
https://huggingface.co/cerebras/btlm-3b-8k-base.
- Abstract(参考訳): btlm-3b-8kとよばれるbittensor言語モデルを紹介し,30億パラメータのオープンソース言語モデルについて述べる。
BTLM-3B-8Kは、SlimPajamaデータセットから627Bトークンを2,048と8,192のコンテキスト長でトレーニングした。
BTLM-3B-8Kは、下流のタスクで既存の3Bパラメータモデルを2-5.5%上回っている。
BTLM-3B-8Kは7Bパラメータモデルと競合する。
さらにBTLM-3B-8Kは、MPT-7B-8KとXGen-7B-8Kを最大8,192のコンテキスト長で上回っている。
我々は,SlimPajamaデータセットを用いてモデルをトレーニングし,<textmu Pハイパーパラメータとスケジュールを積極的に調整し,ALiBi位置埋め込みを使用し,SwiGLU非線形性を採用した。
Hugging Faceでは、最も人気のあるモデルは7Bパラメータを持ち、ユーザーが7Bモデルの品質サイズ比を好むことを示している。
7bパラメータモデルから3bパラメータモデルへのコンパクト化は、パフォーマンスへの影響が少なく、重要なマイルストーンです。
btlm-3b-8kは4ビットの精度で3gbのメモリしか必要とせず、7bモデルよりも2.5倍の計算量を必要とする。
BTLM-3B-8KはHugging FaceのApache 2.0ライセンスで利用可能である。
関連論文リスト
- Nudging: Inference-time Alignment via Model Collaboration [18.530367090350605]
我々は,任意のベースモデルを小さなアライメントモデルを用いて推論時に整列するプラグアンドプレイアルゴリズムであるnudgingを提案する。
看護は、アライメントがスタイリスティックトークンの小さなサブセット上でのモデルの振る舞いを主に変えるという最近の発見によって動機付けられている。
3つのモデルファミリーと13のタスクにまたがるヌードの有効性を評価し、推論、一般的な知識、指示追従、安全性ベンチマークについて検討した。
論文 参考訳(メタデータ) (2024-10-11T23:24:38Z) - A Teacher Is Worth A Million Instructions [4.322454918650575]
提案手法を用いた微調整Mistral 7Bと2x7Bは、7Bおよび13B以上のパラメータを持つ最先端言語モデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-27T11:48:25Z) - Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone [289.9290405258526]
我々は3.3兆のトークンでトレーニングされた38億のパラメータ言語モデルであるphi-3-miniを紹介する。
MMLUでは69%、MTベンチでは8.38である。
本稿では, phi-3.5-mini, phi-3.5-MoE, phi-3.5-Visionの3モデルを紹介する。
論文 参考訳(メタデータ) (2024-04-22T14:32:33Z) - Dense Training, Sparse Inference: Rethinking Training of Mixture-of-Experts Language Models [62.4691912312317]
Mixture-of-Experts (MoE)言語モデルは、性能を犠牲にすることなく、高密度モデルと比較して計算コストを2~4ドル削減することができる。
本稿では,強力な計算とパラメータ効率を実現するMOEモデル(DS-MoE)のためのハイブリッド密集型トレーニングおよびスパース推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-08T14:39:49Z) - TinyGSM: achieving >80% on GSM8k with small language models [49.21136294791747]
小型モデルは様々な計算上の利点を提供するが、どの程度の大きさが問題解決能力にとって重要なのかは未解決のままである。
特に小学校の数学を解くために、GSM8Kベンチマークの80%の障壁を破るために必要なモデルサイズは、まだ34Bである。
我々の研究は、数学的な推論を得るための小さな言語モデルにとって、高品質なデータセットがどのように鍵となるかを研究する。
論文 参考訳(メタデータ) (2023-12-14T18:58:28Z) - LACoS-BLOOM: Low-rank Adaptation with Contrastive objective on 8 bits
Siamese-BLOOM [2.9327503320877457]
意味的に意味のある単語の埋め込みを生成するために最適化された多言語大言語モデルである8ビットのSiamese-BLOOMを提案する。
文類似度分類のために,スケーラブルアダプタ(LoRA)と8ビットAdamでBLOOMを微調整する。
実験の結果,LACoS-BLOOMからの学習した埋め込みの質は,モデルパラメータの数とラベルなしトレーニングデータの量に比例することがわかった。
論文 参考訳(メタデータ) (2023-05-10T18:26:42Z) - The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。
最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。
我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文 参考訳(メタデータ) (2022-12-19T18:48:33Z) - Training Compute-Optimal Large Language Models [54.00424650998489]
私たちは、500億から500億のトークンに対して、7000万から160億以上のパラメータの言語モデルをトレーニングしています。
計算最適トレーニングでは、モデルのサイズとトレーニングトークンの数が等しくスケールする必要がある。
チンチラはGopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を均一かつ著しく上回る
論文 参考訳(メタデータ) (2022-03-29T13:38:03Z) - Tensor Programs V: Tuning Large Neural Networks via Zero-Shot
Hyperparameter Transfer [94.12036830697402]
我々は,最近発見された最大更新パラメトリゼーション(muP)において,モデルサイズが変化しても最適なHPが安定していることを示す。
これは、muTransferと呼ばれる新しいHPチューニングパラダイムにつながります。
muTransfer: muPでターゲットモデルをパラメータ化し、小さなモデルで間接的にHPをチューニングし、ゼロショットでフルサイズのモデルに転送する。
論文 参考訳(メタデータ) (2022-03-07T15:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。