論文の概要: MaLA-500: Massive Language Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.13303v1
- Date: Wed, 24 Jan 2024 08:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:08:24.928072
- Title: MaLA-500: Massive Language Adaptation of Large Language Models
- Title(参考訳): MALA-500:大規模言語モデルの大規模言語適応
- Authors: Peiqin Lin, Shaoxiong Ji, J\"org Tiedemann, Andr\'e F. T. Martins,
Hinrich Sch\"utze
- Abstract要約: MALA-500は、幅広い534言語をカバーするように設計された、新しい大きな言語モデルである。
SIB-200における実験により,MALA-500は,現在最先端のテキスト内学習結果が得られることが示された。
- 参考スコア(独自算出の注目度): 18.031151600976514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have advanced the state of the art in natural language
processing. However, their predominant design for English or a limited set of
languages creates a substantial gap in their effectiveness for low-resource
languages. To bridge this gap, we introduce MaLA-500, a novel large language
model designed to cover an extensive range of 534 languages. To train MaLA-500,
we employ vocabulary extension and continued pretraining on LLaMA 2 with
Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves
state-of-the-art in-context learning results. We release MaLA-500 at
https://huggingface.co/MaLA-LM
- Abstract(参考訳): 大規模言語モデルは、自然言語処理の最先端技術である。
しかし、彼らの英語や限られた言語に対する主要な設計は、低リソース言語に対するその効果にかなりのギャップを生じさせる。
このギャップを埋めるため,幅広い534言語をカバーするように設計された新しい大規模言語モデルであるMALA-500を導入する。
また,MALA-500のトレーニングには語彙拡張を用い,Glot500-cを用いたLLaMA2の事前訓練を継続した。
sib-200実験により,mala-500は最先端のインコンテキスト学習結果を得た。
https://huggingface.co/MaLA-LMでMALA-500をリリースします。
関連論文リスト
- EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - LLaMAX: Scaling Linguistic Horizons of LLM by Enhancing Translation Capabilities Beyond 100 Languages [36.52198103816494]
LLM(Large Language Models)は、オープンソースの言語タスクにおいて顕著な翻訳能力を示す。
しかし、低リソース言語におけるそれらの性能は、事前トレーニング中に不十分な多言語データによって妨げられている。
我々はLLaMAシリーズモデルで多言語連続事前学習を行い、100言語以上にわたる翻訳支援を可能にした。
論文 参考訳(メタデータ) (2024-07-08T14:18:28Z) - Towards a More Inclusive AI: Progress and Perspectives in Large Language Model Training for the Sámi Language [7.289015788793582]
本研究は、S'ami言語における技術参加の増大に焦点を当てている。
我々は,Ultra Low Resource (ULR)言語の言語モデリング問題に対して,MLコミュニティの注目を集めている。
Webから利用可能なS'ami言語リソースをコンパイルして、言語モデルをトレーニングするためのクリーンなデータセットを作成しました。
論文 参考訳(メタデータ) (2024-05-09T13:54:22Z) - Hire a Linguist!: Learning Endangered Languages with In-Context
Linguistic Descriptions [52.95579788485411]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。
GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。
GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T03:44:01Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - A Benchmark for Learning to Translate a New Language from One Grammar
Book [41.1108119653453]
MTOBは英語とカラマン語を翻訳するためのベンチマークである。
モデルは、人間の読みやすい文法説明書から言語を学ぶように求めている。
現状のLLMを用いたベースラインは有望であるが,人間の性能には劣っていることを示す。
論文 参考訳(メタデータ) (2023-09-28T16:32:28Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Glot500: Scaling Multilingual Corpora and Language Models to 500
Languages [8.298465385153527]
Glot500-mは水平スケールのLarge Language Models (LLMs) で、主に低リソース言語511をカバーする。
この取り組みの重要な部分は、これら511言語をカバーするコーパスであるGlot500-cの収集とクリーン化である。
我々は、XLM-Rベースラインと比較して、高リソース言語と低リソース言語の両方で大幅に改善されていることを観察する。
論文 参考訳(メタデータ) (2023-05-20T12:26:41Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。