論文の概要: Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
- arxiv url: http://arxiv.org/abs/2304.08177v3
- Date: Fri, 23 Feb 2024 02:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-26 18:38:32.411198
- Title: Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
- Title(参考訳): 中国語LLaMAとAlpacaの効率的なテキスト符号化
- Authors: Yiming Cui, Ziqing Yang, Xin Yao
- Abstract要約: 中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。
我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。
C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
- 参考スコア(独自算出の注目度): 23.00353889531171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT and GPT-4, have dramatically
transformed natural language processing research and shown promising strides
towards Artificial General Intelligence (AGI). Nonetheless, the high costs
associated with training and deploying LLMs present substantial obstacles to
transparent, accessible academic research. While several large language models,
such as LLaMA, have been open-sourced by the community, these predominantly
focus on English corpora, limiting their usefulness for other languages. In
this paper, we propose a method to augment LLaMA with capabilities for
understanding and generating Chinese text and its ability to follow
instructions. We achieve this by extending LLaMA's existing vocabulary with an
additional 20,000 Chinese tokens, thereby improving its encoding efficiency and
semantic understanding of Chinese. We further incorporate secondary
pre-training using Chinese data and fine-tune the model with Chinese
instruction datasets, significantly enhancing the model's ability to comprehend
and execute instructions. Our experimental results indicate that the newly
proposed model markedly enhances the original LLaMA's proficiency in
understanding and generating Chinese content. Additionally, the results on the
C-Eval dataset yield competitive performance among the models with several
times the size of ours. We have made our pre-trained models, training scripts,
and other resources available through GitHub, fostering open research for our
community. Chinese LLaMA series:
\url{https://github.com/ymcui/Chinese-LLaMA-Alpaca} and Chinese Llama-2 series:
\url{https://github.com/ymcui/Chinese-LLaMA-Alpaca-2}
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語処理の研究を劇的に変化させ、人工知能(AGI)への有望な一歩を示した。
それでも、LLMの訓練や展開に伴う高コストは、透明でアクセスしやすい学術研究にかなりの障害をもたらす。
LLaMAのようないくつかの大きな言語モデルはコミュニティによってオープンソース化されているが、これらは主に英語のコーパスに焦点を当てており、他の言語に対する有用性を制限している。
本稿では,中国語テキストの理解・生成能力と指示に従う能力を備えたLLaMAの拡張手法を提案する。
LLaMAの既存の語彙を2万の中国語トークンで拡張することで、中国語のエンコーディング効率と意味理解を向上させることができる。
さらに,中国データを用いた2次事前学習を取り入れ,中国語命令データセットを用いてモデルを微調整することで,モデルの理解と実行能力を大幅に向上させる。
実験結果から,新たに提案したモデルは,中国コンテンツの理解と生成におけるLLaMAの能力を高めることが示唆された。
さらに、C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られる。
トレーニング済みのモデルやトレーニングスクリプト、その他のリソースをgithubを通じて公開し、コミュニティのオープンリサーチを促進しました。
中国語 LLaMA series: \url{https://github.com/ymcui/ Chinese-LLaMA-Alpaca} および中国語 Llama-2 series: \url{https://github.com/ymcui/ Chinese-LLaMA-Alpaca-2}
関連論文リスト
- YuLan: An Open-source Large Language Model [179.59272970659677]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。
YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。
これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文 参考訳(メタデータ) (2024-06-28T11:52:53Z) - Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - An Empirical Study of Instruction-tuning Large Language Models in
Chinese [32.5288378307064]
本論文は,中国語の指導指導用LDMについて,料理本として機能する詳細な実証的研究を行う。
具体的には, LLM ベース, パラメータ効率のよい手法, 命令データ型の影響を系統的に検討する。
また、連鎖データや人間価値アライメントなど、他の要因の影響を調べる実験も行います。
論文 参考訳(メタデータ) (2023-10-11T09:18:09Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。