Fugu-MT 論文翻訳(概要): FuLG: 150B Romanian Corpus for Language Model Pretraining

論文の概要: FuLG: 150B Romanian Corpus for Language Model Pretraining

arxiv url: http://arxiv.org/abs/2407.13657v1
Date: Thu, 18 Jul 2024 16:32:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-19 14:41:26.048869
Title: FuLG: 150B Romanian Corpus for Language Model Pretraining
Title（参考訳）: FuLG: 言語モデル事前トレーニングのためのルーマニア語コーパス150B
Authors: Vlad-Andrei Bădoiu, Mihai-Valentin Dumitru, Alexandru M. Gherghescu, Alexandru Agache, Costin Raiciu,
Abstract要約: 我々は,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。
参考スコア（独自算出の注目度）: 76.09455151754062
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Research in the field of language models is rapidly evolving, with many open models being released to the public. Openly available pretraining corpora usually focus on only a handful of languages, with many others either missing completely or extremely underrepresented. In this report, we introduce FuLG, a hundred-fifty-billion-token Romanian corpus extracted from CommonCrawl. We present our methodology for filtering FuLG and compare it via ablation studies against existing Romanian corpora.
Abstract（参考訳）: 言語モデルの研究は急速に進展しており、多くのオープンモデルが一般に公開されている。オープンで利用可能な事前学習コーパスは、通常は少数の言語にのみフォーカスするが、他の多くの言語は完全に欠落しているか、非常に不足している。本報告では,CommonCrawlから抽出した100,500万トンものルーマニア製コーパスであるFuLGを紹介する。本稿では,既存のルーマニアのコーパスに対するアブレーション研究を通じてFuLGをフィルタリングし,比較する手法を提案する。

関連論文リスト

LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-13T22:14:45Z)
GlotCC: An Open Broad-Coverage CommonCrawl Corpus and Pipeline for Minority Languages [53.56700754408902]
GlotCCは、ClomCrawlから派生した、クリーンでドキュメントレベルの2TBの汎用ドメインコーパスである。我々はGlotCCと、それを生成するためのシステムを作成し、研究コミュニティに提供します。
論文参考訳（メタデータ） (2024-10-31T11:14:12Z)
Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文参考訳（メタデータ） (2024-04-08T11:55:44Z)
Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文参考訳（メタデータ） (2024-04-02T11:34:12Z)
FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文参考訳（メタデータ） (2023-11-03T08:05:04Z)
Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文参考訳（メタデータ） (2023-10-30T08:31:47Z)
Zero- and Few-Shot Prompting with LLMs: A Comparative Study with Fine-tuned Models for Bangla Sentiment Analysis [6.471458199049549]
本研究では,33,606件のニュースツイートとFacebookコメントを含む手動注釈付きデータセットを提案する。また,Flan-T5,GPT-4,Bloomzなどの言語モデルを用いて,ゼロショットと少数ショットのインコンテキスト学習についても検討した。以上の結果から,モノリンガルトランスフォーマーに基づくモデルは,ゼロおよび少数ショットシナリオにおいても,他のモデルよりも一貫して優れていたことが示唆された。
論文参考訳（メタデータ） (2023-08-21T15:19:10Z)
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。 BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文参考訳（メタデータ） (2022-11-09T18:48:09Z)
The birth of Romanian BERT [1.377045689881944]
本稿では,ルーマニア語トランスフォーマーをベースとした最初の言語モデルであるルーマニア語BERTについて紹介する。本稿では,コーパスの構成とクリーニング,モデルトレーニングプロセス,およびルーマニアの様々なデータセット上でのモデルの広範囲な評価について論じる。
論文参考訳（メタデータ） (2020-09-18T09:30:48Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。