論文の概要: Stable LM 2 1.6B Technical Report
- arxiv url: http://arxiv.org/abs/2402.17834v1
- Date: Tue, 27 Feb 2024 19:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:12:14.889253
- Title: Stable LM 2 1.6B Technical Report
- Title(参考訳): 安定lm 2 1.6b技術報告
- Authors: Marco Bellagente, Jonathan Tow, Dakota Mahan, Duy Phung, Maksym
Zhuravinskyi, Reshinth Adithyan, James Baicoianu, Ben Brooks, Nathan Cooper,
Ashish Datta, Meng Lee, Emad Mostaque, Michael Pieler, Nikhil Pinnaparju,
Paulo Rocha, Harry Saini, Hannah Teufel, Niccolo Zanichelli, Carlos Riquelme
- Abstract要約: 本報告では,StableLM 2 1.6Bのベースおよび命令調整版へのデータおよびトレーニング手順について述べる。
両方のモデルの重量はHugging Faceで誰でもダウンロードできる。
本報告の公開時点では、StableLM 2 1.6Bは2Bパラメータによる最先端のオープンモデルであった。
- 参考スコア(独自算出の注目度): 7.78806287439495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce StableLM 2 1.6B, the first in a new generation of our language
model series. In this technical report, we present in detail the data and
training procedure leading to the base and instruction-tuned versions of
StableLM 2 1.6B. The weights for both models are available via Hugging Face for
anyone to download and use. The report contains thorough evaluations of these
models, including zero- and few-shot benchmarks, multilingual benchmarks, and
the MT benchmark focusing on multi-turn dialogues. At the time of publishing
this report, StableLM 2 1.6B was the state-of-the-art open model under 2B
parameters by a significant margin. Given its appealing small size, we also
provide throughput measurements on a number of edge devices. In addition, we
open source several quantized checkpoints and provide their performance metrics
compared to the original model.
- Abstract(参考訳): 我々は,新世代の言語モデルシリーズの最初のStableLM 2 1.6Bを紹介する。
本技術報告では,StableLM 2 1.6Bのベースおよび命令調整版へのデータおよびトレーニング手順の詳細について述べる。
両方のモデルの重みは、誰でもダウンロードして使えるhughing faceを通じて利用できる。
レポートには、ゼロおよびマイノショットベンチマーク、多言語ベンチマーク、マルチターン対話に焦点を当てたmtベンチマークなど、これらのモデルの徹底した評価が含まれている。
本報告の公開時点では、StableLM 2 1.6Bは2Bパラメータによる最先端のオープンモデルであった。
小型であることから、多くのエッジデバイスでスループットの測定も行っています。
さらに、いくつかの定量化されたチェックポイントをオープンソース化し、元のモデルと比較したパフォーマンス指標を提供する。
関連論文リスト
- ChuXin: 1.6B Technical Report [7.03872473285061]
ChuXinは16億のパラメータを持つ完全にオープンソースな言語モデルである。
トレーニングデータ、トレーニングプロセス、評価コードなど、モデルをトレーニングするために必要なものはすべて用意しました。
論文 参考訳(メタデータ) (2024-05-08T05:54:44Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Stable Code Technical Report [7.303784606231683]
安定コード(Stable Code)は、コード補完、推論、数学、その他のソフトウェア工学ベースのタスクをターゲットにした汎用のベースコード言語モデルである。
安定的なコードインストラクションは、質問応答と命令ベースのタスクを実行するために、自然なチャットインターフェースでモデルと会話することを可能にする。
論文 参考訳(メタデータ) (2024-04-01T16:39:36Z) - H2O-Danube-1.8B Technical Report [2.6856284636402106]
本稿では,H2O-Danubeについて述べる。
H2O-Danube2-1.8B は2Bパラメータ範囲以下の全てのモデルで Open LLM Leaderboard でトップランクを獲得している。
論文 参考訳(メタデータ) (2024-01-30T08:45:08Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - Distilling Efficient Language-Specific Models for Cross-Lingual Transfer [75.32131584449786]
多言語変換器(MMT)は多言語間変換学習に広く用いられている。
MMTの言語カバレッジは、モデルサイズ、推論時間、エネルギ、ハードウェアコストの点で、必要以上にコストがかかる。
本稿では,MMTから圧縮された言語固有のモデルを抽出し,言語間移動のための元のMTのキャパシティを保持することを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:52Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - An Empirical Investigation of Multi-bridge Multilingual NMT models [4.449118708319941]
マルチブリッジ多言語NMTモデル(MB-M2M)について検討する。
非英語対と英語中心の言語対で訓練されたモデル。
論文 参考訳(メタデータ) (2021-10-14T12:14:22Z) - MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。
異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文 参考訳(メタデータ) (2021-04-29T13:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。