論文の概要: LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages
- arxiv url: http://arxiv.org/abs/2407.05975v2
- Date: Sat, 12 Oct 2024 03:20:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 23:13:33.294043
- Title: LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages
- Title(参考訳): LLaMAX:100言語を越える翻訳能力向上によるLLMの言語的ホライズン拡大
- Authors: Yinquan Lu, Wenhao Zhu, Lei Li, Yu Qiao, Fei Yuan,
- Abstract要約: LLM(Large Language Models)は、オープンソースの言語タスクにおいて顕著な翻訳能力を示す。
しかし、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられている。
我々はLLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳支援を可能にした。
- 参考スコア(独自算出の注目度): 36.52198103816494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) demonstrate remarkable translation capabilities in high-resource language tasks, yet their performance in low-resource languages is hindered by insufficient multilingual data during pre-training. To address this, we conduct extensive multilingual continual pre-training on the LLaMA series models, enabling translation support across more than 100 languages. Through a comprehensive analysis of training strategies, such as vocabulary expansion and data augmentation, we develop LLaMAX. Remarkably, without sacrificing its generalization ability, LLaMAX achieves significantly higher translation performance compared to existing open-source LLMs (by more than 10 spBLEU points) and performs on-par with specialized translation model (M2M-100-12B) on the Flores-101 benchmark. Extensive experiments indicate that LLaMAX can serve as a robust multilingual foundation model. The code \footnote{\url{https://github.com/CONE-MT/LLaMAX/.}} and the models \footnote{\url{https://huggingface.co/LLaMAX/.}} are publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高リソース言語タスクにおいて顕著な翻訳能力を示すが、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられる。
この問題を解決するために、LLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳サポートを可能にした。
語彙拡張やデータ拡張といった学習戦略の包括的分析を通じて,LLaMAXを開発した。
注目すべきは、LLaMAXは、その一般化能力を犠牲にすることなく、既存のオープンソースLLM(10spBLEUポイント以上)と比較してはるかに高い翻訳性能を達成し、Flores-101ベンチマークで特別な翻訳モデル(M2M-100-12B)をオンパーで実行することである。
大規模な実験により、LLaMAXは頑健な多言語基盤モデルとして機能することが示された。
コード名 \footnote{\url{https://github.com/CONE-MT/LLaMAX/。
および、モデル \footnote{\url{https://huggingface.co/LLaMAX/。
が公開されている。
関連論文リスト
- FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data [39.54285525397304]
We present FuxiTranyu, a open-source multilingual model for large language model (LLMs)。
ベースモデルであるFuxiTranyu-8Bは80億のパラメータを持ち、微妙にバランスの取れた多言語データに基づいてスクラッチから訓練されている。
幅広い多言語ベンチマークの実験は、フキシトラユの競争性能を実証している。
論文 参考訳(メタデータ) (2024-08-12T16:34:56Z) - LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。
5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文 参考訳(メタデータ) (2024-06-03T20:25:12Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - BigTranslate: Augmenting Large Language Models with Multilingual
Translation Capability over 100 Languages [47.99695189331567]
我々は,LLaMAを20言語に限定し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。
BigTranslateは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語単言語データを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTranslateモデルを導出する。
論文 参考訳(メタデータ) (2023-05-29T14:07:52Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。