Fugu-MT 論文翻訳(概要): Small Languages, Big Models: A Study of Continual Training on Languages of Norway

論文の概要: Small Languages, Big Models: A Study of Continual Training on Languages of Norway

arxiv url: http://arxiv.org/abs/2412.06484v1
Date: Mon, 09 Dec 2024 13:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:44.365645
Title: Small Languages, Big Models: A Study of Continual Training on Languages of Norway
Title（参考訳）: 小さな言語と大きなモデル:ノルウェーの言語に関する継続的な訓練に関する研究
Authors: David Samuel, Vladislav Mikhailov, Erik Velldal, Lilja Øvrelid, Lucas Georges Gabriel Charpentier, Andrey Kutuzov,
Abstract要約: 大きな言語モデルのトレーニングには大量のデータが必要です。新たな3段階連続訓練手法を提案する。ノルウェーのBokmral、Nynorsk、Northern S'amiの114億のパラメータを持つ新しい大規模生成言語モデル(NorMistral-11B)をリリースする。
参考スコア（独自算出の注目度）: 10.520453441057887
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training large language models requires vast amounts of data, posing a challenge for less widely spoken languages like Norwegian and even more so for truly low-resource languages like S\'ami. To address this issue, we present a novel three-stage continual training approach. We also experiment with combining causal and masked language modeling to get more flexible models. Based on our findings, we train, evaluate, and openly release a new large generative language model for Norwegian Bokm\r{a}l, Nynorsk, and Northern S\'ami with 11.4 billion parameters: NorMistral-11B.
Abstract（参考訳）: 大規模な言語モデルのトレーニングには膨大なデータが必要で、ノルウェー語のようなあまり広く話されていない言語や、S\'amiのような真の低リソース言語には課題がある。そこで本研究では,新しい3段階連続訓練手法を提案する。また、より柔軟なモデルを得るために、因果関係とマスク付き言語モデリングを組み合わせる実験を行った。我々は,ノルウェーのBokm\r{a}l,Nynorsk,Northern S\'amiに対して,14億のパラメータを持つ新しい大規模生成言語モデル(NorMistral-11B)を訓練し,評価し,公開している。

関連論文リスト

LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-13T22:14:45Z)
Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文参考訳（メタデータ） (2024-04-02T11:34:12Z)
NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。 GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文参考訳（メタデータ） (2023-12-03T08:09:45Z)
FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文参考訳（メタデータ） (2023-11-03T08:05:04Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文参考訳（メタデータ） (2023-06-20T08:27:47Z)
NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。 NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。 NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文参考訳（メタデータ） (2023-06-13T14:11:19Z)
BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文参考訳（メタデータ） (2022-12-19T15:24:45Z)
The Importance of Context in Very Low Resource Language Modeling [3.734153902687548]
非常に低いリソースシナリオでは、統計的なn-gram言語モデルは最先端のニューラルモデルより優れている。低リソース環境におけるニューラルモデルの性能向上のための3つの手法を提案する。
論文参考訳（メタデータ） (2022-05-10T11:19:56Z)
Training dataset and dictionary sizes matter in BERT models: the case of Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文参考訳（メタデータ） (2021-12-20T14:26:40Z)
AmericasNLI: Evaluating Zero-shot Natural Language Understanding of Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。は、アメリカ大陸の10の原住民の言語である。 XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。 XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文参考訳（メタデータ） (2021-04-18T05:32:28Z)
Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文参考訳（メタデータ） (2021-04-13T23:18:04Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Harnessing Multilinguality in Unsupervised Machine Translation for Rare Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文参考訳（メタデータ） (2020-09-23T15:07:33Z)
Reusing a Pretrained Language Model on Languages with Limited Corpora for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文参考訳（メタデータ） (2020-09-16T11:37:10Z)
Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation [73.65237422910738]
既存の文埋め込みモデルを新しい言語に拡張する,簡単かつ効率的な手法を提案する。これにより、以前のモノリンガルモデルから多言語バージョンを作成することができる。
論文参考訳（メタデータ） (2020-04-21T08:20:25Z)
From English To Foreign Languages: Transferring Pre-trained Language Models [0.12691047660244334]
事前訓練されたモデルは、多くの下流自然言語処理(NLP)タスクにおいてその効果を実証している。多言語事前訓練モデルの可用性により、高リソース言語から低リソース言語へのNLPタスクのゼロショット転送が可能となる。我々は,既存の事前学習されたモデルを,限定的な計算予算の下で英語から他言語に移行する問題に対処する。
論文参考訳（メタデータ） (2020-02-18T00:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。