論文の概要: Skywork: A More Open Bilingual Foundation Model
- arxiv url: http://arxiv.org/abs/2310.19341v1
- Date: Mon, 30 Oct 2023 08:31:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 21:08:56.457595
- Title: Skywork: A More Open Bilingual Foundation Model
- Title(参考訳): Skywork: よりオープンなバイリンガル基礎モデル
- Authors: Tianwen Wei, Liang Zhao, Lichang Zhang, Bo Zhu, Lijie Wang, Haihua
Yang, Biye Li, Cheng Cheng, Weiwei L\"u, Rui Hu, Chenxia Li, Liu Yang, Xilin
Luo, Xuejie Wu, Lunan Liu, Wenjun Cheng, Peng Cheng, Jianhao Zhang, Xiaoyu
Zhang, Lei Lin, Xiaokun Wang, Yutuan Ma, Chuanhai Dong, Yanqi Sun, Yifu Chen,
Yongyi Peng, Xiaojuan Liang, Shuicheng Yan, Han Fang, Yahui Zhou
- Abstract要約: 英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
- 参考スコア(独自算出の注目度): 55.927396986873816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we present Skywork-13B, a family of large language
models (LLMs) trained on a corpus of over 3.2 trillion tokens drawn from both
English and Chinese texts. This bilingual foundation model is the most
extensively trained and openly published LLMs of comparable size to date. We
introduce a two-stage training methodology using a segmented corpus, targeting
general purpose training and then domain-specific enhancement training,
respectively. We show that our model not only excels on popular benchmarks, but
also achieves \emph{state of the art} performance in Chinese language modeling
on diverse domains. Furthermore, we propose a novel leakage detection method,
demonstrating that test data contamination is a pressing issue warranting
further investigation by the LLM community. To spur future research, we release
Skywork-13B along with checkpoints obtained during intermediate stages of the
training process. We are also releasing part of our SkyPile corpus, a
collection of over 150 billion tokens of web text, which is the largest high
quality open Chinese pre-training corpus to date. We hope Skywork-13B and our
open corpus will serve as a valuable open-source resource to democratize access
to high-quality LLMs.
- Abstract(参考訳): 本報告では、英語と中国語のテキストから3.2兆枚以上のトークンを収集した大規模言語モデル(llm)のファミリーであるskywork-13bについて述べる。
このバイリンガル基礎モデルは、現在までに最も広く訓練され、公開されているLLMである。
汎用トレーニングとドメイン特化強化トレーニングをそれぞれターゲットとした,セグメンテーションコーパスを用いた2段階のトレーニング手法を提案する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,多様なドメインにおける中国語のモデリングにおける 'emph{state of the art} のパフォーマンスも達成できることを示す。
さらに, LLM コミュニティによるさらなる調査を保証し, テストデータ汚染がプレス問題であることを示す新しい漏洩検出手法を提案する。
今後の研究を進めるため,我々はskywork-13bをトレーニングの中間段階で取得したチェックポイントと共にリリースする。
われわれはSkyPileのコーパスもリリースしている。これは150億以上のウェブテキストのトークンを集めたもので、中国最大の高品質なプレトレーニングコーパスだ。
Skywork-13Bとオープンコーパスが、高品質のLCMへのアクセスを民主化するための貴重なオープンソースリソースになることを期待しています。
関連論文リスト
- Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - KBioXLM: A Knowledge-anchored Biomedical Multilingual Pretrained
Language Model [37.69464822182714]
ほとんどの生物医学的な事前訓練された言語モデルはモノリンガルであり、言語間要求の増大に対処できない。
本稿では,多言語事前学習型XLM-Rを知識アンコール手法を用いて生物医学領域に変換するKBioXLMというモデルを提案する。
論文 参考訳(メタデータ) (2023-11-20T07:02:35Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。
我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。
C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文 参考訳(メタデータ) (2023-04-17T11:39:53Z) - Tencent AI Lab - Shanghai Jiao Tong University Low-Resource Translation
System for the WMT22 Translation Task [49.916963624249355]
本稿では, Tencent AI Lab - Shanghai Jiao Tong University (TAL-SJTU) Low-Resource Translation system for the WMT22 shared taskについて述べる。
我々は、英語$Leftrightarrow$Livonianの一般的な翻訳作業に参加する。
本システムは,M2M100を対象言語に適応させる新しい手法を用いて構築した。
論文 参考訳(メタデータ) (2022-10-17T04:34:09Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - CLUECorpus2020: A Large-scale Chinese Corpus for Pre-training Language
Model [15.469228003507919]
CLUE(CLUECorpus 2020)の中国コーパスについて紹介する。
100Gの生コーパスが35億文字で、Common Crawlから回収される。
われわれは8Kの中国語彙を新たにリリースし、これはGoogleがリリースした中国ベルト語で使われている語彙の3分の1にすぎない。
論文 参考訳(メタデータ) (2020-03-03T06:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。