論文の概要: MaLA-500: Massive Language Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.13303v2
- Date: Wed, 3 Apr 2024 08:23:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 22:17:46.268036
- Title: MaLA-500: Massive Language Adaptation of Large Language Models
- Title(参考訳): MALA-500:大規模言語モデルの大規模言語適応
- Authors: Peiqin Lin, Shaoxiong Ji, Jörg Tiedemann, André F. T. Martins, Hinrich Schütze,
- Abstract要約: MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。
我々の本質的な評価は,MALA-500 が既存の多言語 LLM よりも低リソース言語のテキストの予測に優れていることを示している。
- 参考スコア(独自算出の注目度): 61.440556436524
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our intrinsic evaluation demonstrates that MaLA-500 is better at predicting the given texts of low-resource languages than existing multilingual LLMs. Moreover, the extrinsic evaluation of in-context learning shows that MaLA-500 outperforms previous LLMs on SIB200 and Taxi1500 by a significant margin, i.e., 11.68% and 4.82% marco-average accuracy across languages. We release MaLA-500 at https://huggingface.co/MaLA-LM
- Abstract(参考訳): 大規模言語モデル (LLM) は、自然言語処理の最先端技術である。
しかし、彼らの英語や限られた言語に対する主要な設計は、低リソース言語に対するその効果にかなりのギャップを生じさせる。
このギャップを埋めるため,幅広い534言語をカバーするように設計された新しい大規模言語モデルであるMALA-500を導入する。
MLA-500のトレーニングには語彙拡張とLLaMA 2でのGlot500-cのトレーニングを継続する。
我々の本質的な評価は,MALA-500 が既存の多言語 LLM よりも低リソース言語のテキストの予測に優れていることを示している。
さらに、文脈内学習の本質的な評価から、MALA-500はSIB200とTaxi1500の従来のLLMよりも11.68%と4.82%のマーコ平均精度で優れていた。
https://huggingface.co/MaLA-LMでMALA-500をリリースします。
関連論文リスト
- EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages [36.52198103816494]
LLM(Large Language Models)は、オープンソースの言語タスクにおいて顕著な翻訳能力を示す。
しかし、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられている。
我々はLLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳支援を可能にした。
論文 参考訳(メタデータ) (2024-07-08T14:18:28Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Hire a Linguist!: Learning Endangered Languages with In-Context
Linguistic Descriptions [52.95579788485411]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。
GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。
GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T03:44:01Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - A Benchmark for Learning to Translate a New Language from One Grammar
Book [41.1108119653453]
MTOBは英語とカラマン語を翻訳するためのベンチマークである。
モデルは、人間の読みやすい文法説明書から言語を学ぶように求めている。
現状のLLMを用いたベースラインは有望であるが,人間の性能には劣っていることを示す。
論文 参考訳(メタデータ) (2023-09-28T16:32:28Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Glot500: Scaling Multilingual Corpora and Language Models to 500
Languages [8.298465385153527]
Glot500-mは水平スケールのLarge Language Models (LLMs) で、主に低リソース言語511をカバーする。
この取り組みの重要な部分は、これら511言語をカバーするコーパスであるGlot500-cの収集とクリーン化である。
我々は、XLM-Rベースラインと比較して、高リソース言語と低リソース言語の両方で大幅に改善されていることを観察する。
論文 参考訳(メタデータ) (2023-05-20T12:26:41Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。