論文の概要: Extrapolating Large Language Models to Non-English by Aligning Languages
- arxiv url: http://arxiv.org/abs/2308.04948v2
- Date: Mon, 9 Oct 2023 14:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:13:07.488601
- Title: Extrapolating Large Language Models to Non-English by Aligning Languages
- Title(参考訳): 言語適応による非英語への大言語モデル外挿
- Authors: Wenhao Zhu, Yunzhe Lv, Qingxiu Dong, Fei Yuan, Jingjing Xu, Shujian
Huang, Lingpeng Kong, Jiajun Chen, Lei Li
- Abstract要約: 既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
- 参考スコア(独自算出の注目度): 109.09051737966178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing large language models show disparate capability across different
languages, due to the imbalance in the training data. Their performances on
English tasks are often stronger than on tasks of other languages. In this
paper, we empower pre-trained LLMs on non-English languages by building
semantic alignment across languages. We start from targeting individual
languages by performing cross-lingual instruction-tuning (CoIT) on LLaMA, i.e.
tuning it with translation task data and cross-lingual general task data to
obtain cross-lingual models (x-LLaMAs), and formulate underlying scaling laws
to investigate the advantages of using scalable translation data. Then we
perform multilingual instruction-tuning (MuIT) with mixed resources to build
multilingual m-LLaMA. We also illustrate how we leverage the scaling laws to
optimize data allocation in a resource-constrained setting. Experiment results
on cross-lingual benchmarks XQUAD and MLQA show that x-LLaMAs surpass the
English instruction-tuned counterpart (Alpaca) by an average of 27.83% across
six non-English languages. Evaluation results on translation dataset Flores-101
show that x-LLaMAs outperform previous LLaMA-based models by an average of
18.89%. Encouragingly, m-LLaMA achieves comparable performance to x-LLaMAs on
individual languages and demonstrates the ability to follow multilingual
instructions. Further analysis on response content and representation space
reveals the alignment of the multilingual semantic space within the middle
layers of m-LLaMA.
- Abstract(参考訳): 既存の大規模言語モデルは、トレーニングデータの不均衡のため、異なる言語間で異なる能力を示す。
英語のタスクでの彼らのパフォーマンスは、しばしば他の言語のタスクよりも強い。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
まず、LLaMA上で言語間命令チューニング(CoIT)を行い、翻訳タスクデータと言語間汎用タスクデータとを調整して言語間モデル(x-LLaMA)を得る。
次に、混合資源を用いた多言語命令チューニング(MuIT)を行い、多言語 m-LLaMA を構築する。
また、リソース制約のある設定でデータ割り当てを最適化するために、スケーリング法則をどのように活用するかを説明します。
XQUAD と MLQA によるクロスランガルベンチマーク実験の結果、x-LLaMA は6つの非英語言語で平均27.83% の差で英語の命令付き言語 (Alpaca) を上回っている。
翻訳データセットFlores-101の評価結果は、x-LLaMAが以前のLLaMAモデルよりも平均18.89%優れていたことを示している。
m-LLaMAは、個々の言語でx-LLaMAに匹敵する性能を達成し、多言語命令に従う能力を示す。
応答内容と表現空間のさらなる解析は、m-LLaMAの中層における多言語意味空間のアライメントを明らかにする。
関連論文リスト
- X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。
本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。
X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文 参考訳(メタデータ) (2024-10-04T03:17:27Z) - Pruning Multilingual Large Language Models for Multilingual Inference [28.36717615166238]
本研究では,非英語言語におけるMLLMのゼロショット性能を向上させる方法について検討する。
まず、翻訳を行う際のMLLMの挙動を分析し、翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
論文 参考訳(メタデータ) (2024-09-25T13:15:50Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Empowering Cross-lingual Abilities of Instruction-tuned Large Language
Models by Translation-following demonstrations [0.8133739801185272]
We propose CrossAlpaca, a It-LLM with cross-lingual instruction-following and translation-following demonstrations。
我々のモデルは、6つの異なる言語でテストされ、単言語データで調整された It-LLM よりも優れています。
論文 参考訳(メタデータ) (2023-08-27T19:22:12Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。