論文の概要: Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities
- arxiv url: http://arxiv.org/abs/2404.17790v1
- Date: Sat, 27 Apr 2024 06:07:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 19:11:12.230995
- Title: Continual Pre-Training for Cross-Lingual LLM Adaptation: Enhancing Japanese Language Capabilities
- Title(参考訳): 言語間LLM適応のための継続事前学習:日本語能力の向上
- Authors: Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Hiroki Iida, Masanari Ohi, Kakeru Hattori, Hirai Shota, Sakae Mizuki, Rio Yokota, Naoaki Okazaki,
- Abstract要約: 大規模な言語モデル(LLM)の言語間連続的な事前学習は、最初は英語コーパスで訓練され、大量の英語リソースを活用でき、事前学習のコストを削減できる。
我々はLlama 2の語彙を日本語の文字に拡張し、大規模な日本語Webコーパスで継続事前学習を行うことにより、日本語能力を高めるLLMであるSwallowを構築した。
- 参考スコア(独自算出の注目度): 20.40712512748528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual continual pre-training of large language models (LLMs) initially trained on English corpus allows us to leverage the vast amount of English language resources and reduce the pre-training cost. In this study, we constructed Swallow, an LLM with enhanced Japanese capability, by extending the vocabulary of Llama 2 to include Japanese characters and conducting continual pre-training on a large Japanese web corpus. Experimental results confirmed that the performance on Japanese tasks drastically improved through continual pre-training, and the performance monotonically increased with the amount of training data up to 100B tokens. Consequently, Swallow achieved superior performance compared to other LLMs that were trained from scratch in English and Japanese. An analysis of the effects of continual pre-training revealed that it was particularly effective for Japanese question answering tasks. Furthermore, to elucidate effective methodologies for cross-lingual continual pre-training from English to Japanese, we investigated the impact of vocabulary expansion and the effectiveness of incorporating parallel corpora. The results showed that the efficiency gained through vocabulary expansion had no negative impact on performance, except for the summarization task, and that the combined use of parallel corpora enhanced translation ability.
- Abstract(参考訳): 大規模な言語モデル(LLM)の言語間連続的な事前学習は、最初は英語コーパスで訓練され、大量の英語リソースを活用でき、事前学習のコストを削減できる。
本研究では,Llama 2 の語彙を日本語文字に拡張し,日本語 Web コーパス上で継続事前学習を行うことにより,日本語能力を高める LLM である Swallow を構築した。
実験結果から, 継続事前学習により日本語タスクのパフォーマンスが劇的に向上し, 100Bトークンまでのトレーニングデータ量で単調に向上することが確認された。
その結果、スワローは英語と日本語でスクラッチから訓練された他のLLMよりも優れた性能を達成した。
継続事前学習の効果を解析した結果,日本人の質問応答作業に特に有効であることが判明した。
さらに,英語から日本語への言語間連続事前学習の効果的な方法を明らかにするために,語彙展開の影響と並列コーパスの導入効果を検討した。
その結果,語彙拡張によって得られる効率は,要約タスク以外の性能に悪影響を与えず,並列コーパスの併用による翻訳能力の向上が認められた。
関連論文リスト
- A Recipe of Parallel Corpora Exploitation for Multilingual Large Language Models [64.79218405438871]
最近の研究は、多言語大言語モデルを強化するために並列コーパスを利用する可能性を強調している。
並列コーパスで強化された多言語大言語モデルの性能に及ぼす並列コーパスの品質と量,訓練目標,モデルサイズの影響について検討した。
論文 参考訳(メタデータ) (2024-06-29T13:12:39Z) - CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment [38.35458193262633]
英語中心のモデルは、通常他の言語では準最適である。
そこで本研究では,言語間命令チューニングデータの混合合成を利用したCrossInという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T06:20:50Z) - Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly [53.04368883943773]
これに対処する2つのアプローチ、すなわち、多言語事前学習と多言語命令チューニングを提案する。
性能, 一貫性, 導電率レベルにおけるLLMの言語間知識アライメントを評価するために, CLiKAを提案する。
その結果、多言語事前学習と指導訓練は、多言語間知識アライメントに有用であるが、訓練戦略を慎重に設計する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-04-06T15:25:06Z) - Can Machine Translation Bridge Multilingual Pretraining and Cross-lingual Transfer Learning? [8.630930380973489]
本稿では,機械翻訳を言語表現学習の強化を目的とした継続的な学習目的として活用する可能性について検討する。
この結果から,機械翻訳の継続学習が言語間表現学習の強化に失敗することが明らかとなった。
言語横断シナリオにおける明示的な文レベルのアライメントは、言語間移動事前学習に有害である、と結論付けた。
論文 参考訳(メタデータ) (2024-03-25T13:53:04Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Linguistically-driven Multi-task Pre-training for Low-resource Neural
Machine Translation [31.225252462128626]
本稿では,日本語を母語とする言語対に対する日本語固有のシーケンス to sequence (JASS) と,英語を含む言語対に対する英語固有のシーケンス to sequence (ENSS) を提案する。
JASSは文節(ぶんせつ)として知られる日本語単位のマスキングとリオーダーに重点を置いており、ENSSは句構造マスキングとリオーダータスクに基づいて提案されている。
論文 参考訳(メタデータ) (2022-01-20T09:10:08Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。