論文の概要: Baichuan 2: Open Large-scale Language Models
- arxiv url: http://arxiv.org/abs/2309.10305v2
- Date: Wed, 20 Sep 2023 04:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 10:39:07.401287
- Title: Baichuan 2: Open Large-scale Language Models
- Title(参考訳): baichuan 2: オープンな大規模言語モデル
- Authors: Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin,
Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng
Liu, Guangwei Ai, Guosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda
Zhang, Hui Liu, Jiaming Ji, Jian Xie, JunTao Dai, Kun Fang, Lei Su, Liang
Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin,
Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei
Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men,
Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen
Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu
- Abstract要約: 我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
- 参考スコア(独自算出の注目度): 51.56361715162972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable performance on a
variety of natural language tasks based on just a few examples of natural
language instructions, reducing the need for extensive feature engineering.
However, most powerful LLMs are closed-source or limited in their capability
for languages other than English. In this technical report, we present Baichuan
2, a series of large-scale multilingual language models containing 7 billion
and 13 billion parameters, trained from scratch, on 2.6 trillion tokens.
Baichuan 2 matches or outperforms other open-source models of similar size on
public benchmarks like MMLU, CMMLU, GSM8K, and HumanEval. Furthermore, Baichuan
2 excels in vertical domains such as medicine and law. We will release all
pre-training model checkpoints to benefit the research community in better
understanding the training dynamics of Baichuan 2.
- Abstract(参考訳): 大規模言語モデル(LLM)は、自然言語命令のわずかな例に基づいて、様々な自然言語タスクにおいて顕著な性能を示し、広範な機能工学の必要性を減らした。
しかし、ほとんどの強力なLLMはクローズドソースであり、英語以外の言語に限られている。
本報告では,70億パラメータと130億パラメータを含む大規模多言語モデルであるbaichuan 2について,約2.6兆トークンを用いてスクラッチから学習した。
baichuan 2は、mmlu、cmmlu、gsm8k、humanevalといった公開ベンチマークで同様の大きさの他のオープンソースモデルに匹敵する。
また、バイチュアン2は医学や法律などの垂直領域に優れる。
ベイチュアン2号の訓練力学をより深く理解するために、すべての事前学習モデルチェックポイントをリリースする。
関連論文リスト
- Tele-FLM Technical Report [96.19923831660266]
52Bのオープンソース多言語大言語モデルであるTele-FLM(別名FLM-2)を紹介する。
安定的で効率的な事前訓練のパラダイムと、事実判断能力の強化が特徴である。
これは、Llama2-70BやDeepSeek-67Bのようなより大きな事前学習FLOPを含む強力なオープンソースモデルに匹敵する。
論文 参考訳(メタデータ) (2024-04-25T14:34:47Z) - Aya Model: An Instruction Finetuned Open-Access Multilingual Language
Model [33.87586041774359]
Ayaは101言語で命令に従う多言語生成言語モデルであり、50%以上が低リソースであると考えられている。
99言語にまたがる多言語evalの最先端性を広げる広範な評価スイートを導入する。
我々は、最適微調整混合物組成、データプルーニング、およびモデルの毒性、バイアス、安全性について詳細な調査を行う。
論文 参考訳(メタデータ) (2024-02-12T17:34:13Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。