Fugu-MT 論文翻訳(概要): Pretraining Finnish ModernBERTs

論文の概要: Pretraining Finnish ModernBERTs

arxiv url: http://arxiv.org/abs/2511.09213v1
Date: Thu, 13 Nov 2025 01:41:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-13 22:34:54.467821
Title: Pretraining Finnish ModernBERTs
Title（参考訳）: Pretraining Finnish ModernBERTs
Authors: Akseli Reunamo, Laura-Maria Peltonen, Hans Moen, Sampo Pyysalo,
Abstract要約: 本報告では,フィンランド語に関連する言語に焦点をあてて,51Mから475Mのパラメータを含む,6つの異なるサイズのModernBERTエンコーダモデルの事前学習について述べる。我々のモデルは、既存の多言語モデルと競合する、あるいは優位である。それらは、512トークン以上のコンテキストを必要とするタスクにおいて、単言語モデルより優れている。
参考スコア（独自算出の注目度）: 3.000523452333836
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper reports on pretraining ModernBERT encoder models in six different sizes, ranging from 51M to 475M parameters, with a focus on limited multilingualism, emphasizing languages relevant to Finland. Our models are competitive with, or superior to, existing multilingual models. They outperform monolingual models on tasks that require a context longer than 512 tokens. We present empirical results on using different data in the final stage of training. The code and models are publicly released.
Abstract（参考訳）: 本報告では,フィンランド語に関連する言語に焦点をあてて,51Mから475Mのパラメータを含む,6つの異なるサイズのModernBERTエンコーダモデルの事前学習について述べる。私たちのモデルは、既存の多言語モデルと競合しているか、優れているかのどちらかです。それらは、512トークン以上のコンテキストを必要とするタスクでモノリンガルモデルより優れている。トレーニングの最終段階で異なるデータを使用する経験的結果を示す。コードとモデルは公開されています。

関連論文リスト

mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。データに1700以上の低リソース言語を追加しています。分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文参考訳（メタデータ） (2025-09-08T17:08:42Z)
Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文参考訳（メタデータ） (2024-04-08T11:55:44Z)
Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文参考訳（メタデータ） (2024-04-02T11:34:12Z)
Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文参考訳（メタデータ） (2024-02-08T13:47:50Z)
FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文参考訳（メタデータ） (2023-11-03T08:05:04Z)
Training dataset and dictionary sizes matter in BERT models: the case of Baltic languages [0.0]
我々はリトアニア語、ラトビア語、英語の3言語モデルLitLat BERTとエストニア語の単言語モデルEst-RoBERTaを訓練する。提案手法は,エンティティ認識,依存性解析,パート・オブ・音声タグ付け,単語類似処理の4つのダウンストリームタスクにおいて,その性能を評価する。
論文参考訳（メタデータ） (2021-12-20T14:26:40Z)
Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。 LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文参考訳（メタデータ） (2021-10-15T14:57:12Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。