Fugu-MT 論文翻訳(概要): Stable LM 2 1.6B Technical Report

論文の概要: Stable LM 2 1.6B Technical Report

arxiv url: http://arxiv.org/abs/2402.17834v1
Date: Tue, 27 Feb 2024 19:00:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 17:12:14.889253
Title: Stable LM 2 1.6B Technical Report
Title（参考訳）: 安定lm 2 1.6b技術報告
Authors: Marco Bellagente, Jonathan Tow, Dakota Mahan, Duy Phung, Maksym Zhuravinskyi, Reshinth Adithyan, James Baicoianu, Ben Brooks, Nathan Cooper, Ashish Datta, Meng Lee, Emad Mostaque, Michael Pieler, Nikhil Pinnaparju, Paulo Rocha, Harry Saini, Hannah Teufel, Niccolo Zanichelli, Carlos Riquelme
Abstract要約: 本報告では,StableLM 2 1.6Bのベースおよび命令調整版へのデータおよびトレーニング手順について述べる。両方のモデルの重量はHugging Faceで誰でもダウンロードできる。本報告の公開時点では、StableLM 2 1.6Bは2Bパラメータによる最先端のオープンモデルであった。
参考スコア（独自算出の注目度）: 7.78806287439495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce StableLM 2 1.6B, the first in a new generation of our language model series. In this technical report, we present in detail the data and training procedure leading to the base and instruction-tuned versions of StableLM 2 1.6B. The weights for both models are available via Hugging Face for anyone to download and use. The report contains thorough evaluations of these models, including zero- and few-shot benchmarks, multilingual benchmarks, and the MT benchmark focusing on multi-turn dialogues. At the time of publishing this report, StableLM 2 1.6B was the state-of-the-art open model under 2B parameters by a significant margin. Given its appealing small size, we also provide throughput measurements on a number of edge devices. In addition, we open source several quantized checkpoints and provide their performance metrics compared to the original model.
Abstract（参考訳）: 我々は,新世代の言語モデルシリーズの最初のStableLM 2 1.6Bを紹介する。本技術報告では,StableLM 2 1.6Bのベースおよび命令調整版へのデータおよびトレーニング手順の詳細について述べる。両方のモデルの重みは、誰でもダウンロードして使えるhughing faceを通じて利用できる。レポートには、ゼロおよびマイノショットベンチマーク、多言語ベンチマーク、マルチターン対話に焦点を当てたmtベンチマークなど、これらのモデルの徹底した評価が含まれている。本報告の公開時点では、StableLM 2 1.6Bは2Bパラメータによる最先端のオープンモデルであった。小型であることから、多くのエッジデバイスでスループットの測定も行っています。さらに、いくつかの定量化されたチェックポイントをオープンソース化し、元のモデルと比較したパフォーマンス指標を提供する。

関連論文リスト

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文参考訳（メタデータ） (2025-08-03T23:59:31Z)
LLäMmlein: Compact and Competitive German-Only Language Models from Scratch [3.7160688974577156]
我々は、2つのドイツ専用デコーダモデル、LL"aMmlein 120Mと1Bを作成し、それらをスクラッチから透過的に公開し、トレーニングデータとともに、ドイツのNLP研究コミュニティが使用できるようにしました。モデルトレーニングには、広範なデータ前処理、カスタムなドイツのトークン化器の作成、トレーニング自体、および様々なベンチマークの最終モデルの評価など、いくつかの重要なステップが含まれていた。
論文参考訳（メタデータ） (2024-11-17T20:44:34Z)
LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文参考訳（メタデータ） (2024-07-28T06:10:47Z)
ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文参考訳（メタデータ） (2024-06-12T21:01:26Z)
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies [85.57899012821211]
SLM(Small Language Models)は、LLM(Large Language Models)に代わるリソース効率の高いモデルである。我々はMiniCPM、特に1.2Bと2.4Bの非埋め込みパラメータの変種を紹介する。また、MiniCPM-DPO、MiniCPM-MoE、MiniCPM-128Kを含むMiniCPMファミリーについても紹介する。
論文参考訳（メタデータ） (2024-04-09T15:36:50Z)
Stable Code Technical Report [7.303784606231683]
安定コード(Stable Code)は、コード補完、推論、数学、その他のソフトウェア工学ベースのタスクをターゲットにした汎用のベースコード言語モデルである。安定的なコードインストラクションは、質問応答と命令ベースのタスクを実行するために、自然なチャットインターフェースでモデルと会話することを可能にする。
論文参考訳（メタデータ） (2024-04-01T16:39:36Z)
H2O-Danube-1.8B Technical Report [2.6856284636402106]
本稿では,H2O-Danubeについて述べる。 H2O-Danube2-1.8B は2Bパラメータ範囲以下の全てのモデルで Open LLM Leaderboard でトップランクを獲得している。
論文参考訳（メタデータ） (2024-01-30T08:45:08Z)
YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。 YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文参考訳（メタデータ） (2023-12-22T17:34:47Z)
Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文参考訳（メタデータ） (2023-10-10T15:13:30Z)
Quantized Transformer Language Model Implementations on Edge Devices [1.2979415757860164]
Bidirectional Representations from Transformers (BERT) のような大規模なトランスフォーマーベースモデルは自然言語処理(NLP)アプリケーションに広く利用されている。これらのモデルは最初、数百万のパラメータを持つ大きなコーパスで事前訓練され、下流のNLPタスクのために微調整される。これらの大規模モデルの大きな制限の1つは、大きなモデルサイズと推論遅延の増加のため、リソース制限されたデバイスにデプロイできないことである。
論文参考訳（メタデータ） (2023-10-06T01:59:19Z)
An Empirical Investigation of Multi-bridge Multilingual NMT models [4.449118708319941]
マルチブリッジ多言語NMTモデル(MB-M2M)について検討する。非英語対と英語中心の言語対で訓練されたモデル。
論文参考訳（メタデータ） (2021-10-14T12:14:22Z)
MOROCCO: Model Resource Comparison Framework [61.444083353087294]
我々は,50以上のNLUタスクをサポートするttjiant環境と互換性のある言語モデルを比較するフレームワークMOROCCOを提案する。異なる言語で2つのGLUEライクなスイートに適用可能であることを示す。
論文参考訳（メタデータ） (2021-04-29T13:01:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。