論文の概要: Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral
- arxiv url: http://arxiv.org/abs/2403.01851v1
- Date: Mon, 4 Mar 2024 09:01:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:26:25.465054
- Title: Rethinking LLM Language Adaptation: A Case Study on Chinese Mixtral
- Title(参考訳): LLM言語適応の再考:中国語混合語を事例として
- Authors: Yiming Cui, Xin Yao
- Abstract要約: 我々は,中国語能力の向上を図り,さらに事前学習と微調整を取り入れた中国語・ミクストラル・中国語・ミクストラル・インストラクションを提案する。
実験結果から,我々の中国・ミクストラル・中国・ミクストラル・インストラクションは,本来の英語能力を維持しつつ,中国語の理解と生成能力を向上させることができた。
- 参考スコア(独自算出の注目度): 23.730985703208002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixtral, a representative sparse mixture of experts (SMoE) language model,
has received significant attention due to its unique model design and superior
performance. Based on Mixtral-8x7B-v0.1, in this paper, we propose
Chinese-Mixtral and Chinese-Mixtral-Instruct with improved Chinese language
abilities by adopting further pre-training and instruction fine-tuning.
Experimental results show that our Chinese-Mixtral and Chinese-Mixtral-Instruct
successfully improve Chinese understanding and generation performance while
retaining the original English abilities. Then, we discuss several key
questions when performing language adaptation on large language models,
including the necessity of extending the language-specific vocabulary and the
choice of the initialization model (foundation model v.s. instruction model),
by providing empirical results and analysis. We also present the visualizations
of each expert to examine their importance on downstream tasks. Our resources
are publicly available through \url{https://github.com/ymcui/Chinese-Mixtral}.
- Abstract(参考訳): 言語モデル(SMoE)の代表的な疎結合であるMixtralは、ユニークなモデル設計と優れたパフォーマンスのために大きな注目を集めている。
そこで本論文では,Mixtral-8x7B-v0.1に基づいて,中国語能力の向上を図った中国語と中国語のミクトラル・インストラクションを提案する。
実験の結果、中国語と中国語の混合指導は、元の英語の能力を維持しながら、中国語の理解と生成性能の向上に成功していることがわかった。
そこで,本稿では,言語固有の語彙の拡張や初期化モデルの選択(基礎モデル対命令モデル)など,大規模言語モデル上で言語適応を行う際の重要な課題について,経験的結果と分析を提供することで論じる。
また,各専門家の可視化を行い,ダウンストリームタスクにおけるその重要性について検討する。
我々のリソースは \url{https://github.com/ymcui/ Chinese-Mixtral} を通じて公開されています。
関連論文リスト
- Dynamic data sampler for cross-language transfer learning in large language models [34.464472766868106]
ChatFlowは、言語間移動に基づく大規模言語モデル(LLM)である。
我々は、LLaMA2モデルを継続的に訓練するために、中国語、英語、並列コーパスを組み合わせています。
実験により,本手法はモデル収束を加速し,優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2024-05-17T08:40:51Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca [23.00353889531171]
中国語テキストの理解・生成機能を備えたLLaMAの拡張手法を提案する。
我々は、中国語データを用いた二次事前学習を取り入れ、中国語の命令データセットでモデルを微調整する。
C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られた。
論文 参考訳(メタデータ) (2023-04-17T11:39:53Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Multi-level Distillation of Semantic Knowledge for Pre-training
Multilingual Language Model [15.839724725094916]
マルチレベル多言語知識蒸留(MMKD)は,多言語言語モデルを改善するための新しい手法である。
我々は、英語のBERTでリッチな意味表現の知識を採用するために、教師中心のフレームワークを採用している。
我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-02T15:23:13Z) - Revisiting and Advancing Chinese Natural Language Understanding with
Accelerated Heterogeneous Knowledge Pre-training [25.510288465345592]
英語とは違って、自然言語処理(NLP)コミュニティでは、さまざまな言語理解アプリケーションをサポートするために、高性能なオープンソースの中国語KEPLMが欠如している。
そこで我々は,さまざまなパラメータサイズで公開された中国語KEPLMを用いて,中国語の自然言語理解の展開と発展について検討する。
具体的には、リレーショナル知識と言語知識の両方を、2つの新しい事前学習タスクに基づいてCKBERTに効果的に注入する。
論文 参考訳(メタデータ) (2022-10-11T09:34:21Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。