論文の概要: OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
- arxiv url: http://arxiv.org/abs/2404.14619v1
- Date: Mon, 22 Apr 2024 23:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 15:50:59.364712
- Title: OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework
- Title(参考訳): OpenELM: オープンソースのトレーニングと推論フレームワークを備えた効率的な言語モデルファミリー
- Authors: Sachin Mehta, Mohammad Hossein Sekhavat, Qingqing Cao, Maxwell Horton, Yanzi Jin, Chenfan Sun, Iman Mirzadeh, Mahyar Najibi, Dmitry Belenko, Peter Zatloukal, Mohammad Rastegari,
- Abstract要約: 私たちは最先端のオープン言語モデルであるOpenELMをリリースします。
パラメータ予算は約10億のパラメータで、OpenELMはOLMoに比べて精度が2.36%向上している。
- 参考スコア(独自算出の注目度): 26.741510071520658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The reproducibility and transparency of large language models are crucial for advancing open research, ensuring the trustworthiness of results, and enabling investigations into data and model biases, as well as potential risks. To this end, we release OpenELM, a state-of-the-art open language model. OpenELM uses a layer-wise scaling strategy to efficiently allocate parameters within each layer of the transformer model, leading to enhanced accuracy. For example, with a parameter budget of approximately one billion parameters, OpenELM exhibits a 2.36% improvement in accuracy compared to OLMo while requiring $2\times$ fewer pre-training tokens. Diverging from prior practices that only provide model weights and inference code, and pre-train on private datasets, our release includes the complete framework for training and evaluation of the language model on publicly available datasets, including training logs, multiple checkpoints, and pre-training configurations. We also release code to convert models to MLX library for inference and fine-tuning on Apple devices. This comprehensive release aims to empower and strengthen the open research community, paving the way for future open research endeavors. Our source code along with pre-trained model weights and training recipes is available at \url{https://github.com/apple/corenet}. Additionally, \model models can be found on HuggingFace at: \url{https://huggingface.co/apple/OpenELM}.
- Abstract(参考訳): 大規模言語モデルの再現性と透明性は、オープンな研究を推進し、結果の信頼性を確保し、データやモデルバイアスの調査を可能にするとともに、潜在的なリスクの可能性を秘めている。
この目的のために、我々は最先端のオープン言語モデルであるOpenELMをリリースする。
OpenELMは、レイヤワイズスケーリング戦略を使用して、トランスフォーマーモデルの各レイヤ内のパラメータを効率的に割り当て、精度を向上する。
例えば、パラメータ予算が約10億のOpenELMでは、OLMoに比べて精度が2.36%向上し、事前トレーニングトークンが2ドル以上必要となる。
モデルウェイトと推論コードのみを提供する以前のプラクティスと異なり、プライベートデータセットで事前トレーニングされる私たちのリリースには、トレーニングログ、複数のチェックポイント、事前トレーニング設定を含む、公開データセット上での言語モデルのトレーニングと評価のための完全なフレームワークが含まれています。
また、モデルをMLXライブラリに変換して、Appleデバイス上での推論と微調整を行うコードもリリースしています。
この包括的リリースは、オープンリサーチコミュニティの強化と強化を目的としており、将来のオープンリサーチへの取り組みの道を開くことを目的としている。
トレーニング済みのモデルウェイトとトレーニングレシピとともに、ソースコードは \url{https://github.com/apple/corenet} で公開されています。
さらに、モデルモデルはHuggingFace at: \url{https://huggingface.co/apple/OpenELM} で見ることができる。
関連論文リスト
- Mixture-Models: a one-stop Python Library for Model-based Clustering
using various Mixture Models [4.60168321737677]
textttMixture-Modelsは、Gaussian Mixture Models(GMM)とその変種を適合させるオープンソースのPythonライブラリである。
様々な第1/第2次最適化ルーチンを使用して、これらのモデルの実装と分析を合理化する。
このライブラリは、BIC、AIC、ログライクな推定など、ユーザフレンドリーなモデル評価ツールを提供する。
論文 参考訳(メタデータ) (2024-02-08T19:34:24Z) - A Split-and-Privatize Framework for Large Language Model Fine-Tuning [7.399324195843467]
パラメータ効率の良い微調整では、下流のデータセットでトレーニングされるのは、少数のモジュールのみである。
本研究では,既存の分割学習アーキテクチャを適応させることで,プライバシ問題を緩和するSAP(Split-and-Privatize)フレームワークを提案する。
その結果,1%モデルの性能劣化を犠牲にして,経験的プライバシを62%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-12-25T03:53:33Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - OpenBA: An Open-sourced 15B Bilingual Asymmetric seq2seq Model
Pre-trained from Scratch [41.45002811060755]
本報告では,オープンソースの15Bバイリンガル非対称seq2seqモデルであるOpenBAについて述べる。
OpenBAを効果的かつ効率的な技術で強化するとともに,スクラッチからモデルをトレーニングするための3段階のトレーニング戦略を採用しています。
私たちのソリューションは、380Bトークンだけで非常に競争力のあるパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-09-19T15:46:40Z) - "Medium" LMs of Code in the Era of LLMs: Lessons From StackOverflow [5.036273913335737]
SOBertBase、109Mパラメータを持つSOBertBaseと、762Mパラメータを持つSOBertLargeの2つのモデルを、それぞれ$187$と$800$の予算でトレーニングします。
その結果、ドメイン内データを広範囲かつ適切に事前学習することで、クローズドソース汎用モデルを活用するための、強力で安価な代替手段が得られることが示された。
論文 参考訳(メタデータ) (2023-06-05T21:38:30Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Cerebras-GPT: Open Compute-Optimal Language Models Trained on the
Cerebras Wafer-Scale Cluster [0.14291940946857257]
本稿では,Cerebras-GPTを紹介した。Cerebras-GPTは111Mから13Bのパラメータに拡張された,オープンな計算最適化言語モデルである。
我々は、予測可能なパワーロースケーリングを特徴付け、Cerebras-GPTと他の公開モデルと比較する。
我々は事前訓練されたモデルとコードを公開し、この論文は、固定データセットサイズでトレーニングされたモデルに対して、計算最適モデルのスケーリングを比較した最初のオープンで再現可能な作業となる。
論文 参考訳(メタデータ) (2023-04-06T16:43:16Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。