Fugu-MT 論文翻訳(概要): The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

論文の概要: The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

arxiv url: http://arxiv.org/abs/2303.17183v1
Date: Thu, 30 Mar 2023 06:42:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-31 14:17:00.790851
Title: The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling
Title（参考訳）: Nordic Pile: 言語モデリングのための1.2TBのNordic Dataset
Authors: Joey \"Ohman, Severine Verlinden, Ariel Ekgren, Amaru Cuba Gyllensten, Tim Isbister, Evangelia Gogoulou, Fredrik Carlsson, Magnus Sahlgren
Abstract要約: 我々は、北ゲルマン語の主要言語すべてで1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて詳述する。
参考スコア（独自算出の注目度）: 5.687459576800633
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-training Large Language Models (LLMs) require massive amounts of text data, and the performance of the LLMs typically correlates with the scale and quality of the datasets. This means that it may be challenging to build LLMs for smaller languages such as Nordic ones, where the availability of text corpora is limited. In order to facilitate the development of the LLMS in the Nordic languages, we curate a high-quality dataset consisting of 1.2TB of text, in all of the major North Germanic languages (Danish, Icelandic, Norwegian, and Swedish), as well as some high-quality English data. This paper details our considerations and processes for collecting, cleaning, and filtering the dataset.
Abstract（参考訳）: 事前学習された大規模言語モデル(LLM)は大量のテキストデータを必要とし、LLMの性能は一般的にデータセットのスケールと品質と相関する。これは、テキストコーパスの可用性が制限されているノルディック言語のような、より小さな言語向けのLLMを構築することが困難であることを意味する。北欧語におけるLLMSの開発を容易にするため、北ゲルマン語の主要言語(デンマーク語、アイスランド語、ノルウェー語、スウェーデン語)およびいくつかの高品質な英語データを含む1.2TBのテキストからなる高品質なデータセットをキュレートする。本稿では,データセットの収集,クリーニング,フィルタリングに関する考察とプロセスについて述べる。

関連論文リスト

Multilingual Language Model Pretraining using Machine-translated Data [33.373858866989536]
高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。 TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
論文参考訳（メタデータ） (2025-02-18T19:27:53Z)
EuroLLM: Multilingual Language Models for Europe [76.89545643715368]
オープンウェイトな多言語LLMの開発を目的としたEuroLLMプロジェクトを紹介した。これまでの進捗状況を概説し、データ収集とフィルタリングプロセスについて詳述する。マルチリンガル・ジェネラル・ベンチマークと機械翻訳の性能について報告する。
論文参考訳（メタデータ） (2024-09-24T16:51:36Z)
LLMs Beyond English: Scaling the Multilingual Capability of LLMs with Cross-Lingual Feedback [61.23008372927665]
我々はLLaMAとBLOOMの多言語機能を100言語に拡張するxLLMs-100を紹介する。 5つの多言語ベンチマークでxLLMs-100の多言語理解と生成能力を評価する。
論文参考訳（メタデータ） (2024-06-03T20:25:12Z)
UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。本研究では,オープンソースの多言語教師付き微調整データセットを構築する。結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文参考訳（メタデータ） (2024-02-07T05:05:53Z)
NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。 GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文参考訳（メタデータ） (2023-12-03T08:09:45Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文参考訳（メタデータ） (2023-05-15T09:43:32Z)
ScandEval: A Benchmark for Scandinavian Natural Language Processing [0.0]
本稿では,スカンジナビア語における4つのタスクに対して事前学習したモデルをベンチマークする,スカンジナビアのベンチマークプラットフォームであるScandEvalを紹介する。言語的受容性と質問応答という2つのタスクで使用されるデータセットは新しいものだ。我々は,Hugging Face Hubにアップロードされたモデルを,再現可能な結果でベンチマークすることができるPythonパッケージとコマンドラインインターフェースであるScandevalを開発し,リリースする。
論文参考訳（メタデータ） (2023-04-03T11:51:46Z)
Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文参考訳（メタデータ） (2021-04-13T23:18:04Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。