論文の概要: Stable LM 2 1.6B Technical Report
- arxiv url: http://arxiv.org/abs/2402.17834v1
- Date: Tue, 27 Feb 2024 19:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 17:12:14.889253
- Title: Stable LM 2 1.6B Technical Report
- Title(参考訳): 安定lm 2 1.6b技術報告
- Authors: Marco Bellagente, Jonathan Tow, Dakota Mahan, Duy Phung, Maksym
Zhuravinskyi, Reshinth Adithyan, James Baicoianu, Ben Brooks, Nathan Cooper,
Ashish Datta, Meng Lee, Emad Mostaque, Michael Pieler, Nikhil Pinnaparju,
Paulo Rocha, Harry Saini, Hannah Teufel, Niccolo Zanichelli, Carlos Riquelme
- Abstract要約: 本報告では,StableLM 2 1.6Bのベースおよび命令調整版へのデータおよびトレーニング手順について述べる。
両方のモデルの重量はHugging Faceで誰でもダウンロードできる。
本報告の公開時点では、StableLM 2 1.6Bは2Bパラメータによる最先端のオープンモデルであった。
- 参考スコア(独自算出の注目度): 7.78806287439495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce StableLM 2 1.6B, the first in a new generation of our language
model series. In this technical report, we present in detail the data and
training procedure leading to the base and instruction-tuned versions of
StableLM 2 1.6B. The weights for both models are available via Hugging Face for
anyone to download and use. The report contains thorough evaluations of these
models, including zero- and few-shot benchmarks, multilingual benchmarks, and
the MT benchmark focusing on multi-turn dialogues. At the time of publishing
this report, StableLM 2 1.6B was the state-of-the-art open model under 2B
parameters by a significant margin. Given its appealing small size, we also
provide throughput measurements on a number of edge devices. In addition, we
open source several quantized checkpoints and provide their performance metrics
compared to the original model.
- Abstract(参考訳): 我々は,新世代の言語モデルシリーズの最初のStableLM 2 1.6Bを紹介する。
本技術報告では,StableLM 2 1.6Bのベースおよび命令調整版へのデータおよびトレーニング手順の詳細について述べる。
両方のモデルの重みは、誰でもダウンロードして使えるhughing faceを通じて利用できる。
レポートには、ゼロおよびマイノショットベンチマーク、多言語ベンチマーク、マルチターン対話に焦点を当てたmtベンチマークなど、これらのモデルの徹底した評価が含まれている。
本報告の公開時点では、StableLM 2 1.6Bは2Bパラメータによる最先端のオープンモデルであった。
小型であることから、多くのエッジデバイスでスループットの測定も行っています。
さらに、いくつかの定量化されたチェックポイントをオープンソース化し、元のモデルと比較したパフォーマンス指標を提供する。
関連論文リスト
- LLäMmlein: Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。
モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文 参考訳(メタデータ) (2024-11-17T20:44:34Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。
我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。
また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文 参考訳(メタデータ) (2024-04-09T15:36:50Z) - Stable Code Technical Report [7.303784606231683]
安定コード(Stable Code)は、コード補完、推論、数学、その他のソフトウェア工学ベースのタスクをターゲットにした汎用のベースコード言語モデルである。
安定的なコードインストラクションは、質問応答と命令ベースのタスクを実行するために、自然なチャットインターフェースでモデルと会話することを可能にする。
論文 参考訳(メタデータ) (2024-04-01T16:39:36Z) - H2O-Danube-1.8B Technical Report [2.6856284636402106]
本稿では,H2O-Danubeについて述べる。
H2O-Danube2-1.8B は2Bパラメータ範囲以下の全てのモデルで Open LLM Leaderboard でトップランクを獲得している。
論文 参考訳(メタデータ) (2024-01-30T08:45:08Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。
これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。
これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文 参考訳(メタデータ) (2023-10-06T01:59:19Z) - An Empirical Investigation of Multi-bridge Multilingual NMT models [4.449118708319941]
マルチブリッジ多言語NMTモデル(MB-M2M)について検討する。
非英語対と英語中心の言語対で訓練されたモデル。
論文 参考訳(メタデータ) (2021-10-14T12:14:22Z) - MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。
異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文 参考訳(メタデータ) (2021-04-29T13:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。