論文の概要: Extrapolating Large Language Models to Non-English by Aligning Languages
- arxiv url: http://arxiv.org/abs/2308.04948v1
- Date: Wed, 9 Aug 2023 13:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 13:34:39.878218
- Title: Extrapolating Large Language Models to Non-English by Aligning Languages
- Title(参考訳): 言語適応による非英語への大言語モデル外挿
- Authors: Wenhao Zhu, Yunzhe Lv, Qingxiu Dong, Fei Yuan, Jingjing Xu, Shujian
Huang, Lingpeng Kong, Jiajun Chen, Lei Li
- Abstract要約: 我々は,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習された大規模言語モデル(LLM)を強化することを提案する。
実験の結果、x-LLaMAモデルは6つの非英語言語で平均42.50%上回った。
- 参考スコア(独自算出の注目度): 56.94337968142735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the unbalanced training data distribution, the language ability of
large language models (LLMs) is often biased towards English. In this paper, we
propose to empower pre-trained LLMs on non-English languages by building
semantic alignment across languages. We perform instruction-tuning on LLaMA
with both translation task data and cross-lingual general task data to obtain
cross-lingual models (x-LLaMA). Experiment results on cross-lingual benchmark
XQUAD and MLQA show that x-LLaMA models outperform the English
instruction-tuned counterpart (Alpaca) by 42.50% on average on six non-English
languages. Further experiments on Chinese benchmark C-Eval show that x-LLaMA
achieves significant improvement on Chinese humanities tasks, outperforming
Alpaca by 8.2%. We also discover that incorporating non-English text on the
target side of translation data is particularly effective for boosting
non-English ability. Besides, we find that semantic alignment within LLM can be
further strengthened as translation task data scales up and we present the
formulation of the underlying scaling law. Evaluation results on translation
dataset Flores-101 show that \method outperforms previous LLaMA-based models in
all evaluated directions. Code and data will be available at:
https://github.com/OwenNJU/x-LLM.
- Abstract(参考訳): 不均衡なトレーニングデータ分布のため、大きな言語モデル(LLM)の言語能力は英語に偏っていることが多い。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化することを提案する。
翻訳タスクデータと言語間汎用タスクデータの両方を用いてLLaMA上で命令チューニングを行い、言語間モデル(x-LLaMA)を得る。
クロスリンガルベンチマークxquadとmlqaの実験の結果、x-llamaモデルは6つの非英語言語の平均で、alpacaを42.50%上回った。
中国のベンチマークc-evalでのさらなる実験により、x-llamaはalpacaを8.2%上回った。
また、翻訳データのターゲット側に非英語テキストを組み込むことは、非英語能力を高めるのに特に有効であることを見出した。
さらに,LLM内の意味的アライメントは,翻訳タスクデータのスケールアップとともにさらに強化され,基礎となるスケーリング法則の定式化が提案される。
翻訳データセット Flores-101 の評価結果から,<method は従来の LLaMA モデルよりもすべての評価方向で優れていた。
コードとデータは、https://github.com/OwenNJU/x-LLM.comで入手できる。
関連論文リスト
- X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。
本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。
X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - Pruning Multilingual Large Language Models for Multilingual Inference [28.36717615166238]
本研究では,非英語言語におけるMLLMのゼロショット性能を向上させる方法について検討する。
まず、翻訳を行う際のMLLMの挙動を分析し、翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
論文 参考訳(メタデータ) (2024-09-25T13:15:50Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Empowering Cross-lingual Abilities of Instruction-tuned Large Language
Models by Translation-following demonstrations [0.8133739801185272]
We propose CrossAlpaca, a It-LLM with cross-lingual instruction-following and translation-following demonstrations。
我々のモデルは、6つの異なる言語でテストされ、単言語データで調整された It-LLM よりも優れています。
論文 参考訳(メタデータ) (2023-08-27T19:22:12Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。