論文の概要: Large-Scale Contextualised Language Modelling for Norwegian
- arxiv url: http://arxiv.org/abs/2104.06546v1
- Date: Tue, 13 Apr 2021 23:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 01:00:24.331170
- Title: Large-Scale Contextualised Language Modelling for Norwegian
- Title(参考訳): ノルウェーにおける大規模文脈言語モデリング
- Authors: Andrey Kutuzov, Jeremy Barnes, Erik Velldal, Lilja {\O}vrelid, Stephan
Oepen
- Abstract要約: 本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
- 参考スコア(独自算出の注目度): 7.5722195869569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the ongoing NorLM initiative to support the creation and use of
very large contextualised language models for Norwegian (and in principle other
Nordic languages), including a ready-to-use software environment, as well as an
experience report for data preparation and training. This paper introduces the
first large-scale monolingual language models for Norwegian, based on both the
ELMo and BERT frameworks. In addition to detailing the training process, we
present contrastive benchmark results on a suite of NLP tasks for Norwegian.
For additional background and access to the data, models, and software, please
see http://norlm.nlpl.eu
- Abstract(参考訳): 我々は、ノルウェー(および原則として他の北欧言語)向けの非常に大きなコンテキスト化された言語モデルの作成と使用を支援する、現在進行中のnorlmイニシアチブと、データ準備とトレーニングのための経験レポートを提供する。
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
データ、モデル、ソフトウェアへのさらなるバックグラウンドとアクセスについては http://norlm.nlpl.eu を参照してください。
関連論文リスト
- Small Languages, Big Models: A Study of Continual Training on Languages of Norway [11.548845014405984]
大きな言語モデルのトレーニングには大量のデータが必要です。
本稿では,下流の性能を大幅に向上させる新しい3段階連続訓練手法を提案する。
ノルウェーのBokmral、Nynorsk、Northern S'amiに14億のパラメータを持つ新しい生成言語モデル(NorMistral-11B)をリリースする。
論文 参考訳(メタデータ) (2024-12-09T13:34:23Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - NorBench -- A Benchmark for Norwegian Language Models [7.395163289937936]
NorBench: 標準化されたデータ分割と評価メトリクスに基づいてノルウェー語モデル(LM)を評価するためのNLPタスクとプローブのスイート。
ノルウェー語モデル(エンコーダとエンコーダ-デコーダの両方をベースとした)も導入する。
我々は、NorBenchの異なるベンチマークテストと比較して、それらのパフォーマンスと既存のLMを比較し、分析する。
論文 参考訳(メタデータ) (2023-05-06T00:20:24Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling [5.687459576800633]
我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。
本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
論文 参考訳(メタデータ) (2023-03-30T06:42:22Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Operationalizing a National Digital Library: The Case for a Norwegian
Transformer Model [0.0]
国立図書館でデジタルコレクションとデジタルコレクションから大規模なトレーニングセットを構築するプロセスを紹介します。
ノルウェー語のための変換器(BERT)に基づく双方向表現は、複数のトークンおよびシーケンス分類タスクにおいて多言語BERT(mBERT)モデルより優れている。
論文 参考訳(メタデータ) (2021-04-19T20:36:24Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。