論文の概要: Goldfish: Monolingual Language Models for 350 Languages
- arxiv url: http://arxiv.org/abs/2408.10441v1
- Date: Mon, 19 Aug 2024 22:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:33:21.619530
- Title: Goldfish: Monolingual Language Models for 350 Languages
- Title(参考訳): Goldfish:350言語のためのモノリンガル言語モデル
- Authors: Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen,
- Abstract要約: 多くの低リソース言語において、利用可能な言語モデルは、多くの言語で同時に訓練された大きな多言語モデルのみである。
Goldfishはモノリンガルな自動回帰変換言語モデルで350言語に対して最大125Mのパラメータを出力する。
- 参考スコア(独自算出の注目度): 23.365111479090626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For many low-resource languages, the only available language models are large multilingual models trained on many languages simultaneously. However, using FLORES perplexity as a metric, we find that these models perform worse than bigrams for many languages (e.g. 24% of languages in XGLM 4.5B; 43% in BLOOM 7.1B). To facilitate research that focuses on low-resource languages, we pre-train and release Goldfish, a suite of monolingual autoregressive Transformer language models up to 125M parameters for 350 languages. The Goldfish reach lower FLORES perplexities than BLOOM, XGLM, and MaLA-500 on 98 of 204 FLORES languages, despite each Goldfish model being over 10x smaller. However, the Goldfish significantly underperform larger multilingual models on reasoning benchmarks, suggesting that for low-resource languages, multilinguality primarily improves general reasoning abilities rather than basic text generation. We release models trained on 5MB (350 languages), 10MB (288 languages), 100MB (166 languages), and 1GB (83 languages) of text data where available. The Goldfish models are available as baselines, fine-tuning sources, or augmentations to existing models in low-resource NLP research, and they are further useful for crosslinguistic studies requiring maximally comparable models across languages.
- Abstract(参考訳): 多くの低リソース言語において、利用可能な言語モデルは、多くの言語で同時に訓練された大きな多言語モデルのみである。
しかし、FLORESパープレキシティを指標として、これらのモデルは、多くの言語でビッグラムよりもパフォーマンスが悪くなっている(例えば、XGLM 4.5Bの言語の24%、BLOOM 7.1Bの43%)。
低リソース言語に焦点を当てた研究を容易にするため、350言語に対して最大125Mパラメータのモノリンガル自動回帰変換言語モデルスイートであるGoldfishを事前訓練しリリースする。
Goldfishは204言語のうち98言語でBLOOM、XGLM、MALA-500よりもFLORESの難易度が低い。
しかし、Goldfishは推論ベンチマークにおいてより大きな多言語モデルよりも優れており、低リソース言語では、多言語性は主に基本的なテキスト生成よりも一般的な推論能力を改善することを示唆している。
5MB(350言語)、10MB(288言語)、100MB(166言語)、1GB(83言語)のテキストデータをトレーニングしたモデルをリリースする。
Goldfishモデルは、低リソースのNLP研究において、ベースライン、微調整ソース、または既存のモデルの拡張として利用可能であり、言語間で最大に比較可能なモデルを必要とするクロス言語研究にさらに有用である。
関連論文リスト
- IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.260317326787035]
本報告では,16種類の低リソースアフリカ言語を対象とした人文翻訳ベンチマークデータセットであるIrokoBenchについて紹介する。
IrokoBenchを使って10のオープンおよび4つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップが見られ、最高パフォーマンスのオープンモデルであるAya-101は、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの58%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。
フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文 参考訳(メタデータ) (2024-04-02T11:34:12Z) - Hire a Linguist!: Learning Endangered Languages with In-Context Linguistic Descriptions [49.97641297850361]
lingOLLMは、LLMが事前トレーニングでほとんど起こらない未知の言語を処理できるようにする、トレーニング不要のアプローチである。
GPT-4とMixtralの2つのモデル上にlingOLLMを実装し,その性能評価を行った。
GPT-4 の 0 から 10.5 BLEU への翻訳能力が 10 言語方向に向上することを示す。
論文 参考訳(メタデータ) (2024-02-28T03:44:01Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - MiLMo:Minority Multilingual Pre-trained Language Model [1.6409017540235764]
本稿では、マイノリティ言語タスクにおいてより優れた性能を発揮する、MLMoという多言語事前学習モデルを構築した。
テキスト分類タスクにおいて,Word2vecモデルと事前学習モデルを比較することにより,少数言語の下流タスク研究に最適なスキームを提供する。
論文 参考訳(メタデータ) (2022-12-04T09:28:17Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。