論文の概要: Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
- arxiv url: http://arxiv.org/abs/2304.08177v1
- Date: Mon, 17 Apr 2023 11:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 15:37:14.612145
- Title: Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
- Title(参考訳): 中国語LLaMAとAlpacaの効率的なテキスト符号化
- Authors: Yiming Cui, Ziqing Yang, Xin Yao
- Abstract要約: このプロジェクトは中国のLLaMAとAlpacaの大型モデルをオープンソース化している。
元のLLaMAの中国語語彙を20万の中国語トークンを追加することで拡張します。
我々のパイロット研究は、LLaMAとAlpacaモデルを他の言語に適応する研究者の基盤となっている。
- 参考スコア(独自算出の注目度): 17.942620756644835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs), such as ChatGPT and GPT-4, have revolutionized
natural language processing research and demonstrated potential in Artificial
General Intelligence (AGI). However, the expensive training and deployment of
LLMs present challenges to transparent and open academic research. To address
these issues, this project open-sources the Chinese LLaMA and Alpaca large
models, emphasizing instruction fine-tuning. We expand the original LLaMA's
Chinese vocabulary by adding 20K Chinese tokens, increasing encoding efficiency
and enhancing basic semantic understanding. By incorporating secondary
pre-training using Chinese data and fine-tuning with Chinese instruction data,
we substantially improve the models' comprehension and execution of
instructions. Our pilot study serves as a foundation for researchers adapting
LLaMA and Alpaca models to other languages. Resources are made publicly
available through GitHub, fostering open research in the Chinese NLP community
and beyond. GitHub repository: https://github.com/ymcui/Chinese-LLaMA-Alpaca
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は自然言語処理の研究に革命をもたらし、人工知能(AGI)の可能性を実証している。
しかし、LLMの高価なトレーニングと展開は、透明でオープンな学術研究に挑戦する。
これらの問題に対処するため、このプロジェクトは中国語のLLaMAとAlpacaの大規模モデルをオープンソース化し、命令の微調整を強調する。
元のLLaMAの中国語語彙を拡張し、20万の中国語トークンを追加し、符号化効率を高め、基本的な意味理解を強化する。
中国語データを用いた二次事前学習と中国語命令データによる微調整を取り入れることで、モデルの理解と命令の実行を大幅に改善する。
我々のパイロット研究は、LLaMAとAlpacaモデルを他の言語に適応するための基礎となる。
リソースはGitHubを通じて公開されており、中国のNLPコミュニティなどにおけるオープンリサーチを促進する。
GitHubリポジトリ:https://github.com/ymcui/ Chinese-LLaMA-Alpaca
関連論文リスト
- YuLan: An Open-source Large Language Model [179.59272970659677]
本稿では,12億ドルのパラメータを持つオープンソースの大規模言語モデル (LLM) であるYuLanの開発について述べる。
YuLanのベースモデルは、英語、中国語、多言語テキストを含む多種多様なコーパスから派生した約1.7ドルのトークンで事前訓練されている。
これらの段階にまたがってカリキュラム学習フレームワークを考案し,LLMが知識を習得し易い方法で学習することを支援する。
論文 参考訳(メタデータ) (2024-06-28T11:52:53Z) - Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [36.01840141194335]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - An Empirical Study of Instruction-tuning Large Language Models in
Chinese [32.5288378307064]
本論文は,中国語の指導指導用LDMについて,料理本として機能する詳細な実証的研究を行う。
具体的には, LLM ベース, パラメータ効率のよい手法, 命令データ型の影響を系統的に検討する。
また、連鎖データや人間価値アライメントなど、他の要因の影響を調べる実験も行います。
論文 参考訳(メタデータ) (2023-10-11T09:18:09Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。