Fugu-MT 論文翻訳(概要): BigTranslate: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

論文の概要: BigTranslate: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages

arxiv url: http://arxiv.org/abs/2305.18098v2
Date: Fri, 7 Jul 2023 08:45:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-10 15:16:44.842626
Title: BigTranslate: Augmenting Large Language Models with Multilingual Translation Capability over 100 Languages
Title（参考訳）: BigTranslate: 100言語を超える多言語翻訳機能を備えた大規模言語モデルの拡張
Authors: Wen Yang, Chong Li, Jiajun Zhang, Chengqing Zong
Abstract要約: 我々は,LLaMAを20言語に限定し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。 BigTranslateは,LLaMA-13B上に構築されており,3つのステップで最適化されている。まず,大規模な中国語単言語データを用いてLLaMAのトレーニングを継続する。次に,102の自然言語をカバーする大規模並列データセットを用いてモデルをトレーニングする。第3に,基礎モデルを多言語翻訳命令で指導し,BigTranslateモデルを導出する。
参考スコア（独自算出の注目度）: 58.88291836555916
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) demonstrate promising translation performance among various natural languages. However, many LLMs especially the open-sourced ones, such as BLOOM and LLaMA, are English-dominant and support only dozens of natural languages, making the potential of LLMs on language translation less explored. In this work, we present BigTranslate which adapts LLaMA that covers only 20 languages and enhances it with multilingual translation capability on more than 100 languages. BigTranslate is built upon LLaMA-13B and it is optimized in three steps. First, we continue training LLaMA with massive Chinese monolingual data. Second, we continue training the model with a large-scale parallel dataset that covers 102 natural languages. Third, we instruct-tune the foundation model with multilingual translation instructions, leading to our BigTranslate model. The preliminary experiments on multilingual translation show that BigTranslate performs comparably with ChatGPT and Google Translate in many languages and even outperforms ChatGPT in 8 language pairs. We release the BigTranslate model and hope it can advance the research progress.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な自然言語間で有望な翻訳性能を示す。しかし、BLOOM や LLaMA のようなオープンソース言語の多くは英語に支配的であり、数十の自然言語しかサポートしていないため、言語翻訳における LLM の可能性はあまり調査されていない。本研究では,20言語のみをカバーするLLaMAに適応し,100言語以上で多言語翻訳機能を備えたBigTranslateを提案する。 BigTranslateはLLaMA-13B上に構築されており、3つのステップで最適化されている。まず,中国一言語データを用いたLLaMAのトレーニングを継続する。第2に,102の自然言語をカバーする大規模並列データセットによるモデルのトレーニングを継続する。第3に、多言語翻訳命令で基礎モデルをチューニングし、BigTranslateモデルに導いた。多言語翻訳の予備実験では、BigTranslateは多くの言語でChatGPTとGoogle Translateと互換性があり、8つの言語ペアでChatGPTを上回ります。われわれはBigTranslateモデルをリリースし、研究の進展を期待している。

関連論文リスト

LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages [36.52198103816494]
LLM(Large Language Models)は、オープンソースの言語タスクにおいて顕著な翻訳能力を示す。しかし、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられている。我々はLLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳支援を可能にした。
論文参考訳（メタデータ） (2024-07-08T14:18:28Z)
Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。我々の研究は、Llama2の翻訳能力について論じている。実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文参考訳（メタデータ） (2024-02-21T16:32:38Z)
Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文参考訳（メタデータ） (2023-08-09T13:32:06Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Eliciting the Translation Ability of Large Language Models via Multilingual Finetuning with Translation Instructions [68.01449013641532]
大規模事前学習言語モデル(LLM)は多言語翻訳において強力な能力を示している。本稿では,多言語事前学習言語モデルであるXGLM-7Bを微調整して,多言語翻訳を行う方法を提案する。
論文参考訳（メタデータ） (2023-05-24T12:00:24Z)
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (2023-05-11T05:19:47Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。