Fugu-MT 論文翻訳(概要): Extrapolating Large Language Models to Non-English by Aligning Languages

論文の概要: Extrapolating Large Language Models to Non-English by Aligning Languages

arxiv url: http://arxiv.org/abs/2308.04948v2
Date: Mon, 9 Oct 2023 14:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 05:13:07.488601
Title: Extrapolating Large Language Models to Non-English by Aligning Languages
Title（参考訳）: 言語適応による非英語への大言語モデル外挿
Authors: Wenhao Zhu, Yunzhe Lv, Qingxiu Dong, Fei Yuan, Jingjing Xu, Shujian Huang, Lingpeng Kong, Jiajun Chen, Lei Li
Abstract要約: 既存の大きな言語モデルは、異なる言語間で異なる能力を示す。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
参考スコア（独自算出の注目度）: 109.09051737966178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing large language models show disparate capability across different languages, due to the imbalance in the training data. Their performances on English tasks are often stronger than on tasks of other languages. In this paper, we empower pre-trained LLMs on non-English languages by building semantic alignment across languages. We start from targeting individual languages by performing cross-lingual instruction-tuning (CoIT) on LLaMA, i.e. tuning it with translation task data and cross-lingual general task data to obtain cross-lingual models (x-LLaMAs), and formulate underlying scaling laws to investigate the advantages of using scalable translation data. Then we perform multilingual instruction-tuning (MuIT) with mixed resources to build multilingual m-LLaMA. We also illustrate how we leverage the scaling laws to optimize data allocation in a resource-constrained setting. Experiment results on cross-lingual benchmarks XQUAD and MLQA show that x-LLaMAs surpass the English instruction-tuned counterpart (Alpaca) by an average of 27.83% across six non-English languages. Evaluation results on translation dataset Flores-101 show that x-LLaMAs outperform previous LLaMA-based models by an average of 18.89%. Encouragingly, m-LLaMA achieves comparable performance to x-LLaMAs on individual languages and demonstrates the ability to follow multilingual instructions. Further analysis on response content and representation space reveals the alignment of the multilingual semantic space within the middle layers of m-LLaMA.
Abstract（参考訳）: 既存の大規模言語モデルは、トレーニングデータの不均衡のため、異なる言語間で異なる能力を示す。英語のタスクでの彼らのパフォーマンスは、しばしば他の言語のタスクよりも強い。本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。まず、LLaMA上で言語間命令チューニング(CoIT)を行い、翻訳タスクデータと言語間汎用タスクデータとを調整して言語間モデル(x-LLaMA)を得る。次に、混合資源を用いた多言語命令チューニング(MuIT)を行い、多言語 m-LLaMA を構築する。また、リソース制約のある設定でデータ割り当てを最適化するために、スケーリング法則をどのように活用するかを説明します。 XQUAD と MLQA によるクロスランガルベンチマーク実験の結果、x-LLaMA は6つの非英語言語で平均27.83% の差で英語の命令付き言語 (Alpaca) を上回っている。翻訳データセットFlores-101の評価結果は、x-LLaMAが以前のLLaMAモデルよりも平均18.89%優れていたことを示している。 m-LLaMAは、個々の言語でx-LLaMAに匹敵する性能を達成し、多言語命令に従う能力を示す。応答内容と表現空間のさらなる解析は、m-LLaMAの中層における多言語意味空間のアライメントを明らかにする。

関連論文リスト

Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Middle-Layer Representation Alignment for Cross-Lingual Transfer in Fine-Tuned LLMs [20.756383171892608]
中層は言語間アライメントの可能性が強い。スロットフィリング、機械翻訳、構造化テキスト生成の実験は、言語間転送における一貫した改善を示している。我々は、個別に訓練されたアライメントモジュールを既存のタスク固有のモジュールとマージすることができ、完全に再トレーニングすることなく言語間の機能を改善することを示す。
論文参考訳（メタデータ） (2025-02-20T18:45:43Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
X-ALMA: Plug & Play Modules and Adaptive Rejection for Quality Translation at Scale [25.257770733168012]
大規模言語モデル(LLM)は、様々なNLPタスクで顕著な成功を収めてきたが、主に英語に焦点を当てている。本稿では,多言語機械翻訳タスクに着目し,言語数よりも品質を優先する。 X-ALMAは、リソースレベルに関係なく、50の異なる言語で最高のパフォーマンスを保証することを約束するモデルである。
論文参考訳（メタデータ） (2024-10-04T03:17:27Z)
Pruning Multilingual Large Language Models for Multilingual Inference [28.36717615166238]
本研究では,非英語言語におけるMLLMのゼロショット性能を向上させる方法について検討する。まず、翻訳を行う際のMLLMの挙動を分析し、翻訳過程において重要な役割を果たす大きな特徴があることを明らかにする。
論文参考訳（メタデータ） (2024-09-25T13:15:50Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。本研究では,LLMの自然多言語アライメント改善について検討する。質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文参考訳（メタデータ） (2024-05-22T16:46:19Z)
Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文参考訳（メタデータ） (2024-04-12T14:19:16Z)
Enhancing Multilingual Capabilities of Large Language Models through Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文参考訳（メタデータ） (2024-02-19T15:07:32Z)
Empowering Cross-lingual Abilities of Instruction-tuned Large Language Models by Translation-following demonstrations [0.8133739801185272]
We propose CrossAlpaca, a It-LLM with cross-lingual instruction-following and translation-following demonstrations。我々のモデルは、6つの異なる言語でテストされ、単言語データで調整された It-LLM よりも優れています。
論文参考訳（メタデータ） (2023-08-27T19:22:12Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Multilingual Transfer Learning for QA Using Translation as Data Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-10T20:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。