論文の概要: Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM
- arxiv url: http://arxiv.org/abs/2502.06635v1
- Date: Mon, 10 Feb 2025 16:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:35:20.034936
- Title: Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM
- Title(参考訳): スチール・LLM:オープンソースへのスクラッチ-中国中心のLLM構築における個人的な旅
- Authors: Qingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang,
- Abstract要約: Steel-LLMは、高品質のオープンソースモデルを作成することを目的として、スクラッチから開発された中国語中心の言語モデルである。
本稿では、データ収集、モデル設計、トレーニング方法論、その過程で遭遇した課題など、プロジェクトの主要なコントリビューションについて包括的に要約する。
- 参考スコア(独自算出の注目度): 47.64519989743434
- License:
- Abstract: Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project's key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.
- Abstract(参考訳): Steel-LLMはスクラッチから開発された中国語中心の言語モデルであり、限られた計算資源にもかかわらず高品質のオープンソースモデルを作成することを目的としている。
2024年3月に立ち上げられたこのプロジェクトは、大規模データセット上で1億パラメーターモデルをトレーニングし、透明性を優先し、コミュニティ内の他の人を支援するための実践的な洞察を共有することを目的としている。
トレーニングは主に中国のデータに焦点を絞ったもので、その一部には英語のデータが含まれており、モデル構築の旅についてより詳細に実践的な説明を提供することで、既存のオープンソースLLMのギャップに対処している。
Steel-LLMはCEVALやCMMLUといったベンチマークで競争力を発揮しており、大規模な機関の初期のモデルよりも優れていた。
本稿では、データ収集、モデル設計、トレーニング方法論、その過程で遭遇した課題など、プロジェクトの主要な貢献を包括的に要約し、研究者や実践者が独自のLLMを開発しようとする上で貴重なリソースを提供する。
モデルチェックポイントとトレーニングスクリプトはhttps://github.com/zhanshijinwat/Steel-LLM.comで公開されている。
関連論文リスト
- LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Ziya2: Data-centric Learning is All LLMs Need [41.44909548662012]
基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案する。
実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-06T17:49:34Z) - CLEVA: Chinese Language Models EVAluation Platform [92.42981537317817]
CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。
当社のプラットフォームでは,LLMのパフォーマンスをさまざまな次元で評価するために標準化されたワークフローを採用し,定期的に競合するリーダボードを更新しています。
汚染を軽減するため、CLEVAは、新しいデータのかなりの割合をキュレーションし、各リーダーボードラウンドのユニークなサブセットを保証するサンプリング戦略を開発する。
マウスクリック数回とモデルAPIを必要とする使い勝手の良いインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。
論文 参考訳(メタデータ) (2023-08-09T09:11:31Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。